Ⅰ 宏基因組shotgun入門筆記
目錄
根據分析對象和實驗目的,宏基因組的研究基本上可以分為
1. Pre-processing
2. Sequence analysis
包括兩種分析策略: read-based (mapping) 和 assembly-based
簡單來說,assembly-based approach 受到覆蓋度的制約,因為組裝時低覆蓋度的區域是不會進行組裝的,而是被丟棄,這樣低豐度的細菌的信息就被丟棄了,反映在reads利用率上,就是往往reads利用率極低,往往低於50%
而 read-based (mapping) approach 則受到reference databases的制約,因為細菌的遺傳多樣性很高,即便是同一個菌種,它的不同菌株,其基因組的組成也是有相對比較大的差異的,那麼在mapping的時候就會出現mapping不上的問題,使得mapping效率不夠高;而且只能分析reference databases中有的物種,對於reference databases未收錄的新物種,是無法進行分析的。
不過可用的微生物參考基因組正在迅速地增加,包括那些原先難以培養的細菌由於培養方法的改進,使得對其進行測序成為可能,再加上單細胞測序的途徑和 metagenomic assembly的途徑得到的基因組序列。現在一些類型的環境樣品(如人腸道)的參考基因組的多樣性已經可以滿足 assembly-free taxonomic profiling 的要求。
隨著測序成本的下降和測序深度的增加,其分析難度將會越來越大,制約效應也將會越來越明顯
預計的單位測序成本將會以指數關系下降,但其中計算成本下降的幅度會遠慢於測序成
在數據存儲和數據處理的層面上,rDNA和擴增序列的分析難度較小,基本可以在個人電腦或者小型伺服器上完成,但宏基因組全測序的分析卻主要受限於計算技術的發展
即使在同一個環境中獲取的不同樣本,其微生物組成也會存在比較大的差異,這使得在樣本集之間,尋找具有統計學顯著性和生物學意義的差異變得很困難。因此如何做到,在即使其影響因素的作用程度很小的情況下,也能有效地檢測出差異就顯得十分重要。
一種策略是,構造 pilot data,即將不同濃度的絕對定量 control (spike-in) 加入到樣本中,來評估實驗與分析方法的穩健性(robust);
另一種策略:two-tiered approach,即挑取少部分樣本,既做 16s rDNA 測序,又做 shotgun metagenomics 測序,對比這兩個層次的結果來評估實驗結果的穩健性。
兩種研究策略:
由於在研究宏基因組過程中,比如研究人類的微生物群,影響其微生物群的因素眾多,包括宿主基因型,年齡,飲食習慣等等,當進行兩個環境微生物群橫向比較時,很難做到控制變數,使得在進行比較分析時混入了許多干擾因素;此時如果進行單一環境微生物群多時間點采樣的縱向比較,就可以從很大程度上消除這種影響。
1. 樣本量與測序深度
當實驗目的是檢出顯著性差異時,樣本量與測序深度的選擇取決於(1)不同樣本間微生物組組成的一致性,(2)樣本固有的微生物多樣性,(3)影響因素的效應量(effect size)
建議:參考前人在類似環境中的研究。若沒有可參照的類似研究,選擇marker gene做預實驗
2. Confounding variables and control groups
在進行宏基因組研究時,往往很難找到與目標樣本集對應的沒有其他干擾因素的對照組
建議:目前最佳的解決策略是,盡可能地搜集各個樣本群體的元數據 (metadata),然後在隨後的比較分析中將它們考慮進去。比如臨床樣本,包括性別、年齡、是否使用抗生素/葯物、取樣位置、飲食習慣等等。比如環境樣本,包括地理位置、季節、pH、溫度等等。
元數據的搜集可以參照MIMARKS (Minimum information about a marker gene sequence) 和 MIxS (minimum information about any (x) gene sequence) 標准
3. Sample collection/preservation
樣本的處理和保存過程的差異會帶來系統偏差,比如when samples are provided from a number of locations by different research groups,或者在縱向研究中,不同取樣時間點的樣本的保存時間長短不一。有時這些處理步驟的效應量可能比你感興趣的生物學變數還大。
建議:盡可能按照相同的標准來進行取樣和保存
4. Biomass/Contamination
當前採用的基於測序的方法具有很高的靈敏度 (highly sensitive),即使非常微量的DNA也能被檢測出來。而實驗室中使用到的常規儀器和試劑並不是無菌的,這樣就很可能在實驗操作過程中,人為地引入污染。由於檢測方法的高靈敏度,當原樣本的微生物量很少時,污染帶來的信號很可能會蓋過真實的信號。
建議:在上機測序前,做好微生物量的定量 (qPCR)。當樣品中的微生物數量少於10 5 數量級時,其極有可能會受到背景污染的干擾。此時,可以參照以下的方法進行細胞/DNA的富集:
可以增設負對照實驗 (Negative control),對其進行與實際樣本相同的操作,使用相同的試劑,以此來找出污染的細菌類型,這樣就可以在後續的生物信息學分析過程中將其過濾掉。
5. 選擇合適的DNA提取方法
DNA提取的效果會直接對後續的實驗和分析產生巨大的影響。DNA提取方法的選擇依賴於樣品中細胞類型的組成,然而即使是相同類型的樣品其微生物組成也具有較大的差異(當人糞便中革蘭氏陰性菌主導時,細胞很容易裂解,而當由相對頑強的革蘭氏陽性菌主導時,則相反)。
因此不存在適用於所有樣品的最佳的DNA提取方案。
若方案選擇不當,則獲得的DNA主要來自於那些易裂解的細菌
建議:
Illumina測序儀通量大 (up to 1.5 Tb per run),且准確率高 (with a typical error rate of 0.1–1%),通過在不同樣本的序列上添加兩重barcode,可以一次測序多個samples。
然而,Illumina測序儀存在carryover (between runs) 和 carry-between (within runs)的問題。最新的測序儀由於使用了新的擴增方法 (ExAmp),導致較高比例的『index hopping』。
雖然沒有一個明確的指導意見,告訴你在哪個特定的環境樣品中應該測多大的覆蓋度,但是一個基本的原則就是通量要盡可能地大,這樣低豐度的細菌也能被測到。Illumina HiSeq 2500/4000, NextSeq 和 NovaSeq 的測序通量都很大,都適用於 metagenomics 的研究。
Metagenome de novo assembly 採用的策略與 whole-genome assembly 相同,均為 de Bruijn 圖方法
用 de Bruijn 圖方法進行宏基因組的從頭組裝時,面臨著以下的挑戰:
當進行單一基因組的組裝時,其有一個前提假設:整個基因組的測序覆蓋度是相對均勻的,這樣就可以利用覆蓋度信息來識別重復序列和鑒定測序錯誤和等位變異。
而metagenome中,各個組成基因組的覆蓋度取決於它們的物種豐度,低豐度物種的基因組就會由於總體測序深度不夠而使得最終組裝出來的基因組是支離破碎的。使用更短的 k-mer 有助於低豐度基因組的組裝,但是這會使得圖中重復 k-mer 的頻率大大增加,降低了組裝的准確性。
這需要組裝工具在考量低豐度物種與獲得高豐度物種更長更准確的contig之間進行權衡,即選擇合適的 k-mer :
同種細菌的不同菌株,它們的基因組組成很相近,常常就是一個鹼基的變異或者整個基因/操縱子的丟失,當進行 de Bruijn 圖組裝時,就會在這些差異的位置出現分叉,組裝工具在遇到這些分叉時,常常會停在這些位置,從而導致一個個不連續組裝片段的產生。
Meta-IDBA:將圖依據其拓撲結構拆分成各個元件,每個元件代表各個亞種的共有區域
解決計算能力與內存不足的策略:
Metagenome 組裝完成後,我們得到的是成千上萬的 contigs,我們需要知道哪些 contigs 來自哪一個基因組,或者都有哪些微生物的基因組。所以需要將 contigs 按照物種水平進行分組歸類,稱為 "bining"
一個很容易想到的策略就是,將組裝得到的片段與已知物種的參考基因組進行比對,根據同源性進行歸類。然而目前大多數的微生物的基因組還沒有測序出來,因此限制了這種方法的可行性。
目前主流的 bining 策略利用的是 contigs 的序列組成特點。
依據:來自同一菌株的序列,其核酸組成是相似的
例如根 據核酸使用頻率 (oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency), GC含量 和 必需的單拷貝基因 等
優勢:即便只有一個樣品的宏基因組數據也可以進行binning,這在原理上是可操作的
不足:由於很多微生物種內各基因型之間的基因組相似性很高,想利用1個樣品的宏基因組數據通過核酸組成信息進行binning,效果往往並不理想或難度很大。利用核酸組成信息進行binning,基本上只適合那些群落中物種基因型有明顯核酸組成差異的,例如低GC含量和一致的寡核苷酸使用頻率
依據:來自同一個菌株的基因在不同的樣品中 ( 不同時間或不同病理程度 ) 的豐度分布模式是相似的【PMID: 24997787】。
原因:比如,某一細菌中有兩個基因,A和B,它們在該細菌基因組中的拷貝數比例為 A:B = 2:1,則不管在哪個樣品中這種細菌的數量有多少,這兩個基因的豐度比例總是為 2:1
優勢:這種方法更有普適性,一般效果也比較好,能達到菌株的水平
不足:必須要大樣本量,一般至少要50個樣本以上,至少要有2個組能呈現豐度變化 ( 即不同的處理,不同的時間,疾病和健康,或者不同的采樣地點等 ) ,每個組內的生物學重復也要盡量的多
對於像質粒這樣的可移動遺傳單元 (mobile genetic elements (MGEs)),由於其復制獨立於細菌染色體,則同一種細菌的不同個體,該質粒的拷貝數可能存在差異,使得無法用豐度信息進行有效地bining
將核酸組成信息和豐度差異信息創建一個綜合的距離矩陣,既能保證binning效果,也能相對節約計算資源,現在比較主流的binning軟體多是同時依據核酸組成和豐度變化信息
依據:不同的細菌,其基因組甲基化模式不同,平均一種細菌有3種特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平轉移是細菌甲基化組多樣性的驅動因素。雖然 MGEs 在不同個體的拷貝數不同,但是都存在,因此具有相同 MGEs 的細菌個體,其總遺傳物質(包括染色體和 MGEs )都會受到相同的MTase的作用而得到相同的甲基化模式。
Q1:從哪些序列下手進行binning呢?
從原始的clean reads,還是從組裝成的contig,還是從預測到的gene,都可以。根據基於聚類的序列類型的不同,暫且分為reads binning, contig binning和 genes binning
比較這三種binning的優劣:
總體來說應用最廣泛的就是基於genes binning 和 contig binning
Genes binning的一般流程
在宏基因組做完組裝和基因預測之後,把所有樣品中預測到的基因混合在一起,去冗餘得到unique genes集合,對這個unique genes集合進行binning,主要是根據gene在各個樣品中的豐度變化模式,計算gene之間的相關性,利用這種相關性進行聚類
該圖中的聚類過程類似於 K-means聚類 :隨機選擇幾個seed genes作為誘餌,計算其他基因豐度分布模式與seed genes的相關性,按照固定的相關性值PCC>0.9,將它們歸屬於不同seed genes所代表的類,然後在聚好的類內重新選擇seed genes,進行迭代,最終聚類得到一個個基因集合,較大的集合(超過700個基因)稱為 metagenomic species (MGS),較小的集合稱為 co-abundance gene group (CAG)
基於 bining 結果進行單菌組裝:
比如對核酸組成信息的利用,開發得就不夠充分,四鹼基使用頻率因簡單而被廣泛使用和接受,但現在已有研究表明k-mer豐度信息也是很好的種系特徵,同時越長的k-mer含有越多的信息,還有基因和參考基因組間的同源關系也是有價值的種系信號,但這些都還沒有被自動化的binning軟體整合
想要獲得高質量的bins經常需要手動調整
Taxonomic profiling: identifies which microbial species are present in a metagenome and estimates their abundance
優點:
當然它也有局限性:
對於與人類密切相關的樣品,比如人腸道,可以使用該策略,而且已經有相關的成功實踐
By looking at co-abundant markers from preassembled environment-specific gene catalogs
即前人研究 (MetaHIT consortium) 已經得出特定環境下的微生物的組成,這些微生物中有某些 co-abundant markers(這些 marker genes 的豐度與其物種的豐度成正比),這樣就可以基於對這些 markers 的定量得到對應的物種豐度
選擇 markers 的不同策略:
當樣本量巨大,都進行組裝是明顯不切實際的,此時採用 marker-based approaches 是一個不錯的選擇;而且,如果該環境來源的樣本其組成微生物是研究比較充分時,marker-based approaches 能得到比較准確的物種定量結果。
Gene identification
Characterization of the functional potential of the microbiome
局限性 : lack of annotations for accessory genes in most microbial species
因為在評估微生物群體的代謝潛能時,只對那些高度保守和 housekeeping 類型的功能進行了注釋,這就解釋了,為什麼來自不同環境的不同樣品,它們的功能特徵常常是十分相似的,即使它們的物種組成有很大差異。
例如,鑒定出微生物群落中的抗生素抗性基因,該方法高度依賴特定功能相關基因集注釋的質量。
參考資料:
(1) 魏子艷, 金德才, 鄧曄. 環境微生物宏基因組學研究中的生物信息學方法[J]. 微生物學通報, 2015, 42(5):890-901.
(2) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.
(3) 句句干貨!一文讀懂宏基因組binning
(4) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
(5) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
(6) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).
(7) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).