Ⅰ 宏基因组shotgun入门笔记
目录
根据分析对象和实验目的,宏基因组的研究基本上可以分为
1. Pre-processing
2. Sequence analysis
包括两种分析策略: read-based (mapping) 和 assembly-based
简单来说,assembly-based approach 受到覆盖度的制约,因为组装时低覆盖度的区域是不会进行组装的,而是被丢弃,这样低丰度的细菌的信息就被丢弃了,反映在reads利用率上,就是往往reads利用率极低,往往低于50%
而 read-based (mapping) approach 则受到reference databases的制约,因为细菌的遗传多样性很高,即便是同一个菌种,它的不同菌株,其基因组的组成也是有相对比较大的差异的,那么在mapping的时候就会出现mapping不上的问题,使得mapping效率不够高;而且只能分析reference databases中有的物种,对于reference databases未收录的新物种,是无法进行分析的。
不过可用的微生物参考基因组正在迅速地增加,包括那些原先难以培养的细菌由于培养方法的改进,使得对其进行测序成为可能,再加上单细胞测序的途径和 metagenomic assembly的途径得到的基因组序列。现在一些类型的环境样品(如人肠道)的参考基因组的多样性已经可以满足 assembly-free taxonomic profiling 的要求。
随着测序成本的下降和测序深度的增加,其分析难度将会越来越大,制约效应也将会越来越明显
预计的单位测序成本将会以指数关系下降,但其中计算成本下降的幅度会远慢于测序成
在数据存储和数据处理的层面上,rDNA和扩增序列的分析难度较小,基本可以在个人电脑或者小型服务器上完成,但宏基因组全测序的分析却主要受限于计算技术的发展
即使在同一个环境中获取的不同样本,其微生物组成也会存在比较大的差异,这使得在样本集之间,寻找具有统计学显着性和生物学意义的差异变得很困难。因此如何做到,在即使其影响因素的作用程度很小的情况下,也能有效地检测出差异就显得十分重要。
一种策略是,构造 pilot data,即将不同浓度的绝对定量 control (spike-in) 加入到样本中,来评估实验与分析方法的稳健性(robust);
另一种策略:two-tiered approach,即挑取少部分样本,既做 16s rDNA 测序,又做 shotgun metagenomics 测序,对比这两个层次的结果来评估实验结果的稳健性。
两种研究策略:
由于在研究宏基因组过程中,比如研究人类的微生物群,影响其微生物群的因素众多,包括宿主基因型,年龄,饮食习惯等等,当进行两个环境微生物群横向比较时,很难做到控制变量,使得在进行比较分析时混入了许多干扰因素;此时如果进行单一环境微生物群多时间点采样的纵向比较,就可以从很大程度上消除这种影响。
1. 样本量与测序深度
当实验目的是检出显着性差异时,样本量与测序深度的选择取决于(1)不同样本间微生物组组成的一致性,(2)样本固有的微生物多样性,(3)影响因素的效应量(effect size)
建议:参考前人在类似环境中的研究。若没有可参照的类似研究,选择marker gene做预实验
2. Confounding variables and control groups
在进行宏基因组研究时,往往很难找到与目标样本集对应的没有其他干扰因素的对照组
建议:目前最佳的解决策略是,尽可能地搜集各个样本群体的元数据 (metadata),然后在随后的比较分析中将它们考虑进去。比如临床样本,包括性别、年龄、是否使用抗生素/药物、取样位置、饮食习惯等等。比如环境样本,包括地理位置、季节、pH、温度等等。
元数据的搜集可以参照MIMARKS (Minimum information about a marker gene sequence) 和 MIxS (minimum information about any (x) gene sequence) 标准
3. Sample collection/preservation
样本的处理和保存过程的差异会带来系统偏差,比如when samples are provided from a number of locations by different research groups,或者在纵向研究中,不同取样时间点的样本的保存时间长短不一。有时这些处理步骤的效应量可能比你感兴趣的生物学变量还大。
建议:尽可能按照相同的标准来进行取样和保存
4. Biomass/Contamination
当前采用的基于测序的方法具有很高的灵敏度 (highly sensitive),即使非常微量的DNA也能被检测出来。而实验室中使用到的常规仪器和试剂并不是无菌的,这样就很可能在实验操作过程中,人为地引入污染。由于检测方法的高灵敏度,当原样本的微生物量很少时,污染带来的信号很可能会盖过真实的信号。
建议:在上机测序前,做好微生物量的定量 (qPCR)。当样品中的微生物数量少于10 5 数量级时,其极有可能会受到背景污染的干扰。此时,可以参照以下的方法进行细胞/DNA的富集:
可以增设负对照实验 (Negative control),对其进行与实际样本相同的操作,使用相同的试剂,以此来找出污染的细菌类型,这样就可以在后续的生物信息学分析过程中将其过滤掉。
5. 选择合适的DNA提取方法
DNA提取的效果会直接对后续的实验和分析产生巨大的影响。DNA提取方法的选择依赖于样品中细胞类型的组成,然而即使是相同类型的样品其微生物组成也具有较大的差异(当人粪便中革兰氏阴性菌主导时,细胞很容易裂解,而当由相对顽强的革兰氏阳性菌主导时,则相反)。
因此不存在适用于所有样品的最佳的DNA提取方案。
若方案选择不当,则获得的DNA主要来自于那些易裂解的细菌
建议:
Illumina测序仪通量大 (up to 1.5 Tb per run),且准确率高 (with a typical error rate of 0.1–1%),通过在不同样本的序列上添加两重barcode,可以一次测序多个samples。
然而,Illumina测序仪存在carryover (between runs) 和 carry-between (within runs)的问题。最新的测序仪由于使用了新的扩增方法 (ExAmp),导致较高比例的‘index hopping’。
虽然没有一个明确的指导意见,告诉你在哪个特定的环境样品中应该测多大的覆盖度,但是一个基本的原则就是通量要尽可能地大,这样低丰度的细菌也能被测到。Illumina HiSeq 2500/4000, NextSeq 和 NovaSeq 的测序通量都很大,都适用于 metagenomics 的研究。
Metagenome de novo assembly 采用的策略与 whole-genome assembly 相同,均为 de Bruijn 图方法
用 de Bruijn 图方法进行宏基因组的从头组装时,面临着以下的挑战:
当进行单一基因组的组装时,其有一个前提假设:整个基因组的测序覆盖度是相对均匀的,这样就可以利用覆盖度信息来识别重复序列和鉴定测序错误和等位变异。
而metagenome中,各个组成基因组的覆盖度取决于它们的物种丰度,低丰度物种的基因组就会由于总体测序深度不够而使得最终组装出来的基因组是支离破碎的。使用更短的 k-mer 有助于低丰度基因组的组装,但是这会使得图中重复 k-mer 的频率大大增加,降低了组装的准确性。
这需要组装工具在考量低丰度物种与获得高丰度物种更长更准确的contig之间进行权衡,即选择合适的 k-mer :
同种细菌的不同菌株,它们的基因组组成很相近,常常就是一个碱基的变异或者整个基因/操纵子的丢失,当进行 de Bruijn 图组装时,就会在这些差异的位置出现分叉,组装工具在遇到这些分叉时,常常会停在这些位置,从而导致一个个不连续组装片段的产生。
Meta-IDBA:将图依据其拓扑结构拆分成各个元件,每个元件代表各个亚种的共有区域
解决计算能力与内存不足的策略:
Metagenome 组装完成后,我们得到的是成千上万的 contigs,我们需要知道哪些 contigs 来自哪一个基因组,或者都有哪些微生物的基因组。所以需要将 contigs 按照物种水平进行分组归类,称为 "bining"
一个很容易想到的策略就是,将组装得到的片段与已知物种的参考基因组进行比对,根据同源性进行归类。然而目前大多数的微生物的基因组还没有测序出来,因此限制了这种方法的可行性。
目前主流的 bining 策略利用的是 contigs 的序列组成特点。
依据:来自同一菌株的序列,其核酸组成是相似的
例如根 据核酸使用频率 (oligonucleotide frequency variations),通常是四核苷酸频率(tetranucleotide frequency), GC含量 和 必需的单拷贝基因 等
优势:即便只有一个样品的宏基因组数据也可以进行binning,这在原理上是可操作的
不足:由于很多微生物种内各基因型之间的基因组相似性很高,想利用1个样品的宏基因组数据通过核酸组成信息进行binning,效果往往并不理想或难度很大。利用核酸组成信息进行binning,基本上只适合那些群落中物种基因型有明显核酸组成差异的,例如低GC含量和一致的寡核苷酸使用频率
依据:来自同一个菌株的基因在不同的样品中 ( 不同时间或不同病理程度 ) 的丰度分布模式是相似的【PMID: 24997787】。
原因:比如,某一细菌中有两个基因,A和B,它们在该细菌基因组中的拷贝数比例为 A:B = 2:1,则不管在哪个样品中这种细菌的数量有多少,这两个基因的丰度比例总是为 2:1
优势:这种方法更有普适性,一般效果也比较好,能达到菌株的水平
不足:必须要大样本量,一般至少要50个样本以上,至少要有2个组能呈现丰度变化 ( 即不同的处理,不同的时间,疾病和健康,或者不同的采样地点等 ) ,每个组内的生物学重复也要尽量的多
对于像质粒这样的可移动遗传单元 (mobile genetic elements (MGEs)),由于其复制独立于细菌染色体,则同一种细菌的不同个体,该质粒的拷贝数可能存在差异,使得无法用丰度信息进行有效地bining
将核酸组成信息和丰度差异信息创建一个综合的距离矩阵,既能保证binning效果,也能相对节约计算资源,现在比较主流的binning软件多是同时依据核酸组成和丰度变化信息
依据:不同的细菌,其基因组甲基化模式不同,平均一种细菌有3种特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平转移是细菌甲基化组多样性的驱动因素。虽然 MGEs 在不同个体的拷贝数不同,但是都存在,因此具有相同 MGEs 的细菌个体,其总遗传物质(包括染色体和 MGEs )都会受到相同的MTase的作用而得到相同的甲基化模式。
Q1:从哪些序列下手进行binning呢?
从原始的clean reads,还是从组装成的contig,还是从预测到的gene,都可以。根据基于聚类的序列类型的不同,暂且分为reads binning, contig binning和 genes binning
比较这三种binning的优劣:
总体来说应用最广泛的就是基于genes binning 和 contig binning
Genes binning的一般流程
在宏基因组做完组装和基因预测之后,把所有样品中预测到的基因混合在一起,去冗余得到unique genes集合,对这个unique genes集合进行binning,主要是根据gene在各个样品中的丰度变化模式,计算gene之间的相关性,利用这种相关性进行聚类
该图中的聚类过程类似于 K-means聚类 :随机选择几个seed genes作为诱饵,计算其他基因丰度分布模式与seed genes的相关性,按照固定的相关性值PCC>0.9,将它们归属于不同seed genes所代表的类,然后在聚好的类内重新选择seed genes,进行迭代,最终聚类得到一个个基因集合,较大的集合(超过700个基因)称为 metagenomic species (MGS),较小的集合称为 co-abundance gene group (CAG)
基于 bining 结果进行单菌组装:
比如对核酸组成信息的利用,开发得就不够充分,四碱基使用频率因简单而被广泛使用和接受,但现在已有研究表明k-mer丰度信息也是很好的种系特征,同时越长的k-mer含有越多的信息,还有基因和参考基因组间的同源关系也是有价值的种系信号,但这些都还没有被自动化的binning软件整合
想要获得高质量的bins经常需要手动调整
Taxonomic profiling: identifies which microbial species are present in a metagenome and estimates their abundance
优点:
当然它也有局限性:
对于与人类密切相关的样品,比如人肠道,可以使用该策略,而且已经有相关的成功实践
By looking at co-abundant markers from preassembled environment-specific gene catalogs
即前人研究 (MetaHIT consortium) 已经得出特定环境下的微生物的组成,这些微生物中有某些 co-abundant markers(这些 marker genes 的丰度与其物种的丰度成正比),这样就可以基于对这些 markers 的定量得到对应的物种丰度
选择 markers 的不同策略:
当样本量巨大,都进行组装是明显不切实际的,此时采用 marker-based approaches 是一个不错的选择;而且,如果该环境来源的样本其组成微生物是研究比较充分时,marker-based approaches 能得到比较准确的物种定量结果。
Gene identification
Characterization of the functional potential of the microbiome
局限性 : lack of annotations for accessory genes in most microbial species
因为在评估微生物群体的代谢潜能时,只对那些高度保守和 housekeeping 类型的功能进行了注释,这就解释了,为什么来自不同环境的不同样品,它们的功能特征常常是十分相似的,即使它们的物种组成有很大差异。
例如,鉴定出微生物群落中的抗生素抗性基因,该方法高度依赖特定功能相关基因集注释的质量。
参考资料:
(1) 魏子艳, 金德才, 邓晔. 环境微生物宏基因组学研究中的生物信息学方法[J]. 微生物学通报, 2015, 42(5):890-901.
(2) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.
(3) 句句干货!一文读懂宏基因组binning
(4) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
(5) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
(6) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).
(7) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).