1. 判别分析方法、聚类分析方法、HMM方法简介
三个学分的通选课,A类
曾经作为力学系的限选课开出.
欢迎大二以上有数理基础的同学选修.
《生物信息学算法导论》课程介绍
课程英文名:Introction to Computational Biology
课程号:00331440
开课单位:力学系、理论生物学中心
开课教师:朱怀球
上课时间:每周四晚
上课地点:理教201
选课地点、时间:三教103,9月5日星期五上午8:00~12:00
一、课程设置目的及主要内容
随着人类基因组计划的不断推进,运用理论模型和数值计算研究生命科学,已经成为一门 最吸引人的新兴学科,是当今生命科学和自然科学的核心领域和最具活力的前沿领域之一 。生物信息学/计算生物学以现代分子生物学数据作为主要研究对象,发展理论模型和计算方法,揭示以基因组信息结构为主的生物复性,以及生长、发育、遗传、进化等生命 现象的根本规律。本课程主要为具有数理背景的大学二年级以上本科生(含大二)和相关领域的研究生开设,偏重理论建模和算法的学习。首先介绍当代生命科学的发展和现状, 然后介绍计算生物学中几种主要的研究方法,包括统计学方法、Markov过程模型、信息论方法、机器学习方法等,并结合当今生物信息学领域的最新进展,讨论上述各种方法实际研究中的应用(包括基因序列信息分析、基因预测、分子进化及系统发育树和蛋白质调控网络等重要问题)。 本课程注重学科交叉、融合,以介绍思想、方法为主,深入浅出,避免繁琐、抽象的数学形式,启发学生综合运用数学、物理、工程科学和计算机知识的能力,拓宽知识面,了解学科前沿和最新进展,培养跨越生命科学、计算科学、数理科学等不同领域的“大科学”素质和意识,为今后选择新兴交叉学科领域进行深造奠定基础。
二、课程大纲
第1章 绪论 (1学时)
从人类基因组计划说起
计算生物学——后基因组时代的呼唤
计算生物学主要研究内容和方法
以生命科学为核心的“大科学”
第2章 生物学基础 (5学时)
What is life?——从薛定锷的思考到“双螺旋”的发现
生命的演化和分类
生命的分子组成
遗传的分子基础
基因组与基因结构
第3章 生物信息数据库和计算生物学主要问题 (3学时)
生物信息数据库简介
计算生物学主要问题之一:序列比对
计算生物学主要问题之二:核酸和蛋白质结构与功能预测
计算生物学主要问题之三:基因组序列分析
计算生物学主要问题之四:功能基因组相关信息分析
第4章 计算生物学的统计学方法 (10学时)
统计方法的基本概念
回归分析方法及其应用
判别分析方法及其应用
聚类分析方法及其应用
第5章 计算生物学的Markov过程模型 (6学时)
Markov过程的基本概念
隐Markov模型(HMM)的基本原理
HMM模型的计算生物学应用
第6章 生物学的信息论基础 (6学时)
信源与信息熵
离散信道与平均互信息
编码理论简介
生物遗传信息的传递
第7章 遗传算法和人工神经网络方法简介 (8学时)
遗传算法的基本原理和方法
遗传算法与人工生命模型
人工神经网络的基本概念
人工神经网络的模式识别算法
第8章 生物信息学/计算生物学的若干重要问题 (6学时)
基因预测算法和软件
分子进化与系统发育
基因调控网络
三、本课程考试方式
在老师指导下,结合所讲内容进行学科调研,要求同学在期中、期末分别完成两次调研论 文,论文题目不限。
2. 大数据处理的五大关键技术及其应用
作者 | 网络大数据
来源 | 产业智能官
数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策。其中主要工作环节包括:
大数据采集 大数据预处理 大数据存储及管理 大数据分析及挖掘 大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术
数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。
大数据采集一般分为:
大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。
基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
二、大数据预处理技术
完成对已接收数据的辨析、抽取、清洗等操作。
抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
三、大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。
开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。
开发大数据安全技术:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
四、大数据分析及挖掘技术
大数据分析技术:改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。
机器学习中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
数据挖掘主要过程是:根据分析挖掘目标,从数据库中把数据提取出来,然后经过ETL组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘。传统的数据挖掘软件,一般只能支持在单机上进行小规模数据处理,受此限制传统数据分析挖掘一般会采用抽样方式来减少数据分析规模。
数据挖掘的计算复杂度和灵活度远远超过前两类需求。一是由于数据挖掘问题开放性,导致数据挖掘会涉及大量衍生变量计算,衍生变量多变导致数据预处理计算复杂性;二是很多数据挖掘算法本身就比较复杂,计算量就很大,特别是大量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如K-means聚类算法、PageRank算法等。
从挖掘任务和挖掘方法的角度,着重突破:
可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。 数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。 语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。 数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。预测分析成功的7个秘诀
预测未来一直是一个冒险的命题。幸运的是,预测分析技术的出现使得用户能够基于历史数据和分析技术(如统计建模和机器学习)预测未来的结果,这使得预测结果和趋势变得比过去几年更加可靠。
尽管如此,与任何新兴技术一样,想要充分发挥预测分析的潜力也是很难的。而可能使挑战变得更加复杂的是,由不完善的策略或预测分析工具的误用导致的不准确或误导性的结果可能在几周、几个月甚至几年内才会显现出来。
预测分析有可能彻底改变许多的行业和业务,包括零售、制造、供应链、网络管理、金融服务和医疗保健。AI网络技术公司Mist Systems的联合创始人、首席技术官Bob fridy预测:“深度学习和预测性AI分析技术将会改变我们社会的所有部分,就像十年来互联网和蜂窝技术所带来的转变一样。”。
这里有七个建议,旨在帮助您的组织充分利用其预测分析计划。
1.能够访问高质量、易于理解的数据
预测分析应用程序需要大量数据,并依赖于通过反馈循环提供的信息来不断改进。全球IT解决方案和服务提供商Infotech的首席数据和分析官Soumendra Mohanty评论道:“数据和预测分析之间是相互促进的关系。”
了解流入预测分析模型的数据类型非常重要。“一个人身上会有什么样的数据?” Eric Feigl - Ding问道,他是流行病学家、营养学家和健康经济学家,目前是哈佛陈氏公共卫生学院的访问科学家。“是每天都在Facebook和谷歌上收集的实时数据,还是难以访问的医疗记录所需的医疗数据?”为了做出准确的预测,模型需要被设计成能够处理它所吸收的特定类型的数据。
简单地将大量数据扔向计算资源的预测建模工作注定会失败。“由于存在大量数据,而其中大部分数据可能与特定问题无关,只是在给定样本中可能存在相关关系,”FactSet投资组合管理和交易解决方案副总裁兼研究主管Henri Waelbroeck解释道,FactSet是一家金融数据和软件公司。“如果不了解产生数据的过程,一个在有偏见的数据上训练的模型可能是完全错误的。”
2.找到合适的模式
SAP高级分析产品经理Richard Mooney指出,每个人都痴迷于算法,但是算法必须和输入到算法中的数据一样好。“如果找不到适合的模式,那么他们就毫无用处,”他写道。“大多数数据集都有其隐藏的模式。”
模式通常以两种方式隐藏:
模式位于两列之间的关系中。例如,可以通过即将进行的交易的截止日期信息与相关的电子邮件开盘价数据进行比较来发现一种模式。Mooney说:“如果交易即将结束,电子邮件的公开率应该会大幅提高,因为买方会有很多人需要阅读并审查合同。”
模式显示了变量随时间变化的关系。“以上面的例子为例,了解客户打开了200次电子邮件并不像知道他们在上周打开了175次那样有用,”Mooney说。
3 .专注于可管理的任务,这些任务可能会带来积极的投资回报
纽约理工学院的分析和商业智能主任Michael Urmeneta称:“如今,人们很想把机器学习算法应用到海量数据上,以期获得更深刻的见解。”他说,这种方法的问题在于,它就像试图一次治愈所有形式的癌症一样。Urmeneta解释说:“这会导致问题太大,数据太乱——没有足够的资金和足够的支持。这样是不可能获得成功的。”
而当任务相对集中时,成功的可能性就会大得多。Urmeneta指出:“如果有问题的话,我们很可能会接触到那些能够理解复杂关系的专家” 。“这样,我们就很可能会有更清晰或更好理解的数据来进行处理。”
4.使用正确的方法来完成工作
好消息是,几乎有无数的方法可以用来生成精确的预测分析。然而,这也是个坏消息。芝加哥大学NORC (前国家意见研究中心)的行为、经济分析和决策实践主任Angela Fontes说:“每天都有新的、热门的分析方法出现,使用新方法很容易让人兴奋”。“然而,根据我的经验,最成功的项目是那些真正深入思考分析结果并让其指导他们选择方法的项目——即使最合适的方法并不是最性感、最新的方法。”
罗切斯特理工学院计算机工程系主任、副教授shanchie Jay Yang建议说:“用户必须谨慎选择适合他们需求的方法”。“必须拥有一种高效且可解释的技术,一种可以利用序列数据、时间数据的统计特性,然后将其外推到最有可能的未来,”Yang说。
5.用精确定义的目标构建模型
这似乎是显而易见的,但许多预测分析项目开始时的目标是构建一个宏伟的模型,却没有一个明确的最终使用计划。“有很多很棒的模型从来没有被人使用过,因为没有人知道如何使用这些模型来实现或提供价值,”汽车、保险和碰撞修复行业的SaaS提供商CCC信息服务公司的产品管理高级副总裁Jason Verlen评论道。
对此,Fontes也表示同意。“使用正确的工具肯定会确保我们从分析中得到想要的结果……”因为这迫使我们必须对自己的目标非常清楚,”她解释道。“如果我们不清楚分析的目标,就永远也不可能真正得到我们想要的东西。”
6.在IT和相关业务部门之间建立密切的合作关系
在业务和技术组织之间建立牢固的合作伙伴关系是至关重要的。客户体验技术提供商Genesys的人工智能产品管理副总裁Paul lasserr说:“你应该能够理解新技术如何应对业务挑战或改善现有的业务环境。”然后,一旦设置了目标,就可以在一个限定范围的应用程序中测试模型,以确定解决方案是否真正提供了所需的价值。
7.不要被设计不良的模型误导
模型是由人设计的,所以它们经常包含着潜在的缺陷。错误的模型或使用不正确或不当的数据构建的模型很容易产生误导,在极端情况下,甚至会产生完全错误的预测。
没有实现适当随机化的选择偏差会混淆预测。例如,在一项假设的减肥研究中,可能有50%的参与者选择退出后续的体重测量。然而,那些中途退出的人与留下来的人有着不同的体重轨迹。这使得分析变得复杂,因为在这样的研究中,那些坚持参加这个项目的人通常是那些真正减肥的人。另一方面,戒烟者通常是那些很少或根本没有减肥经历的人。因此,虽然减肥在整个世界都是具有因果性和可预测性的,但在一个有50%退出率的有限数据库中,实际的减肥结果可能会被隐藏起来。
六、大数据展现与应用技术
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。
在我国,大数据将重点应用于以下三大领域:商业智能 、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。
3. 详细介绍双序列比对、blast 以及多序列比对的区别,以及均适用于哪些场 景
序列比对是将两个或多个序列排列在一起,标明其相似之处。使用间隔表示未比对上,比对上的相同或相似的符号排列在同一列上。序列比对是生物信息学以及基因组学与进化的基础之一,其基本思想是:在生物学中普遍存在的序列决定结构、结构决定功能的规律,通过将核酸序列或者蛋白质序列的一级结构看成由基本字符构成的字符串,通过序列比对我们可以找到相似的序列并由此发现生物序列中的功能、结构和进化信息。
全局比对:全局比对是指将参与比对的两条序列里面的所有字符进行比对。全局比对在全局范围内对两条序列进行比对打分,找出最佳比对,主要被用来寻找关系密切的序列。其可以用来鉴别或证明新序列与已知序列家族的同源性,是进行分子进化分析的重要前提。其代表是Needleman-Wunsch算法。
局部比对:与全局比对不同,局部比对不必对两个完整的序列进行比对,而是在每个序列中使用某些局部区域片段进行比对。其产生的需求在于、人们发现有的蛋白序列虽然在序列整体上表现出较大的差异性,但是在某些局部区域能独立的发挥相同的功能,序列相当保守。这时候依靠全局比对明显不能得到这些局部相似序列的。其次,在真核生物的基因中,内含子片段表现出了极大变异性,外显子区域却较为保守,这时候全局比对表现出了其局限性,无法找出这些局部相似性序列。其代表是Smith-Waterman局部比对算法。
双重序列比对:双序列比对是指对两条序列M和N进行比对,找到其相似性关系,这种寻找生物序列相似性关系的过程被称为双序列比对。其算法可以主要分成基于全局比对的Needleman-Wunsch算法和基于局部比对的Smith-Waterman局部比对算法
多重序列比对:多序列比对是双序列比对推广,即把两个以上字符序列对齐,逐列比较其字符的异同,使得每一列字符尽可能一致,以发现其共同的结构特征的方法称为多序列比对。多序列比对算法可以分成渐进法和同步法。其可以发现不同的序列之间的相似部分,从而推断它们在结构和功能上的相似关系,主要用于分子进化关系,预测蛋白质的二级结构和三级结构、估计蛋白质折叠类型的总数,基因组序列分析等。
基因组比对:是多序列比对的一种特例,指对基因组范围内的序列信息进行比对的过程。通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。
BLAST:BLAST[1](Basic Local Alignment Search Tool)是在在1990年由Altschul等人提出的双序列局部比对算法,是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST是一种启发式算法,用于在大型数据库中寻找比对序列,是一种在局部比对基础上的近似比对算法,可以在保持较高精度的情况下大大减少程序运行的时间。
算法思想描述:
双重序列比对主要分成以Needleman-Wunsch算法为代表的全局比对和以Smith-Waterman局部比对算法为代表的局部比对,BLAST是局部比对的一种推广。多重比对算法可以主要分成动态规划算法、随机算法、迭代法和渐进比对算法。
(1)双重序列比对:
Needleman-Wunsch算法:该算法是基于动态规划思想的全局比对的基本算法,动态规划的比对算法的比对过程可以用一个以序列S为列,T为行的(m+1)×(n+1)的二维矩阵来表示,用
sigma表示置换矩阵。
在计算完矩阵后,从矩阵的右下角单元到左上单元回溯最佳路径(用箭头表示),根据最佳路径给出两序列的比对结果。其中,斜箭头表示2个残基匹配,水平箭头表示在序列S的相应位置插入一个空位,垂直方向的箭头表示在序列T的相应位置插入一个空位。
Smith-Waterman算法:该算法是一种用来寻找并比较具有局部相似性区域的动态规划算法,这种算法适用于亲缘关系较远、整体上不具有相似性而在一些较小的区域上存在局部相似性的两个序列。该算法的基本思想是:使用迭代方法计算出两个序列的相似分值,存在一个得分矩阵M中,然后根据这个得分矩阵,通过动态规划的方法回溯找到最优的比对序列。与全局比对相比,这种算法的改变是把矩阵单元值为负者一律取为0,这是因为分值为负的比对丧失了比对的生物学意义,因此把得分为负值的子序列丢弃。
BLAST: BLAST算法的基本思想是通过产生数量更少的但质量更好的增强点来提高比对的速度。算法的原理主要分为以下五步:(1)过滤:首先过滤掉低复杂度区域,即含有大量重复的序列;(2)Seeding:将Query序列中每k个字组合成一个表,即将一个序列拆分成多个连续的‘seed words’(通常蛋白质k=3,核酸k=11);(3)比对:列出我们所关心的所有可能的字组,再配合置换矩阵给出高分值的字组并组织成快速搜索树结构或者哈希索引,因此此步骤可以快速搜索出大数据集中的所有匹配序列,找到每个seed words在参考序列中的位置;(4)延伸:当找到seed words的位置后,接下来需要将seed word延伸成长片段,延伸过程中,得分值也在变化,当得分值小于阈值时即停止延伸,最后得到的片段成为高分片段对,HSP(High-scoring segment pair);(5)显着性分析,最后我们使用如下公式计算E值,E值衡量了在随机情况下,数据库存在的比当前匹配分数更好的比对的数目,因此可以用该值作为指标评价HSP比对序列的可信度。
其中,m是数据库长度,n是query的长度,S是HSP分数,其他两个参数是修正系数。
(2)多重序列比对
动态规划算法:其基本思想是将一个二维的动态规划矩阵扩展到三维或者多维,多序列比对的积分是n个序列中两两进行比对所得积分之和。矩阵的维度反映了参与比对的序列数。这种方法对计算资源要求比较高[6]。
随机算法:主要包括遗传算法和模拟退火算法,遗传算法是一类借鉴生物界进化规律演化来的全局意义上的自适应随机搜索方法。当用遗传算法进行生物序列分析时,每一代包含固定数量的个体,这些个体用他们的适应度来评价。变异则模拟了生物进化过程中的偶然残基突变现象。对产生的新一代群体进行重新评价、选择、交叉、变异,如此循环往复,使群体中最优个体的适应度不断提高,直到达到一个阈值,算法结束。模拟退火的基本思想是用一物质系统的退火过程来模拟优化问题的寻优方法,当物质系统达到最小能量状态时,优化问题的目标函数也相应地达到了全局最优解。这两种方法都是对构造好的目标函数进行最优解搜索,但实际比对效果并不好[6,7]。
迭代法:迭代法的代表是Muscle[8], Muscle是一个新的渐进比对和迭代比对的综合算法,主要由两部分构成,第一部分是迭代渐进比对:第一次渐进比对的目的是快速产生一个多序列比对而不强调准确率,以此为基础再对渐进比对进行改良。经过两次渐进比对,形成一个相对准确的多序列比对;第二部分是迭代比对:该过程类似于Prrp算法[9],即通过不断的迭代,逐步优化最终比对结果。其主要特点包括:使用kmer counting进行快速的距离测量,使用一个新的图谱比对打分函数进行渐进比对,使用依赖于数的有限分隔进行细化。
渐进比对算法:该算法以Feng和Doolittle提出的最为经典[10]。渐进比对算法的基本思想是迭代地利用两序列动态规划比对算法,先由两个序列的比对开始,逐渐添加新序列,直到所有序列都加入为止。但是不同的添加顺序会产生不同的比对结果。确定合适的比对顺序是渐进比对算法的一个关键问题。通常,整个序列的比对应该从最相似的两个序列开始,由近至远逐步完成。作为全局多序列比对的渐进比对算法有个基本的前提假设:所有要比对的序列是同源的,即由共同的祖先序列经过一系列的突变积累,并经自然选择遗传下来的,分化越晚的序列之间相似程度就越高。因此,在渐进比对过程中,应该对近期的进化事件比远期的进化事件给予更大的关注。由于同源序列是进化相关的,因此可以按着序列的进化顺序,即沿着系统发育树(指导树)的分支,由近至远将序列或已比对序列按双序列比对算法逐步进行比对,重复这一过程直到所有序列都己添加到这个比对中为止[10]。其三个步骤为:(1)利用双序列比对方法对所有的序列进行两两比对,得到相似性分值;(2)利用相似性矩阵(或距离矩阵)产生辅助导向树;(3)根据导向树进行渐进比对。渐进比对算法是最常用、简单又有效的启发式多序列比对方法,它所需时间较短、所占内存较小,其算法很多,主要有CLUSTAL W, T-Coffee和DiAlign等,其中 CLUSTAL W应用最广泛。
应用:
类型+应用
双重序列对比:判断两个序列的同源性和一致性。(1)全局多序列比对可以鉴别或证明新序列与己有序列家族的同源性;帮助预测新蛋白质序列的二级和二级结构,是进行分子进化分析的重要前提。适合序列相似性较高,序列长度近似时的比对;(2)局部比对考虑序列部分区域的相似性。局部多序列比对可以用来刻画蛋白质家族和超家族。适合于未知两个序列相似程度的,可能存在一些片段极其相似而另一些片段相异的序列比对情况。
多重序列比对:多重比对经常用来研究序列间的进化关系,构建进化树;探究序列间的保守性。主要用于分子进化关系,预测蛋白质的二级结构和三级结构、估计蛋白质折叠类型的总数,基因组序列分析等。
基因组比对:通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。
其中,BLAST作为最重要的比对工具,意义特殊,拿出来单独讨论。BLAST可以分成Basic BLAST和 Specialized BLAST, BLAST包括常规的nucleotide blast, Protein blast和Translating blast;Specialize blast可以对特殊生物或特殊研究领域的序列数据库进行检索。