A. 三代測序入門
移步github
共有的特點:
10X Genomics,是常規Illumina二代測序的升級版,由於開發出了一套巧妙的Barcoding建庫方案,使得Illumina這種短讀長二代測序能夠得到跨度在30-100Kb的linked reads信息,與二代測序數據相結合,在Scaffold的組裝上能夠得到媲美三代測序的組裝結果
其GC偏好性如何?
10X Genomics技術相對於Illumina來說,有改進,但依舊是個拱形,而PacBio則是無偏倚的均一分布。10X的技術,其Coverage一樣是受GC含量影響較大的,那麼如果真要應用10X技術,那麼必須注意目標DNA的GC含量分布最好能控制在30~70%。
真正的單分子測序(Helicos True Single Molecule Sequencing)
待測DNA 被隨機打斷成小片段,在每個小片段( 200bp)的末端加上poly-dA,並於玻璃晶元上隨機固定多個 poly-dT 引物,其末端皆帶有熒游標記,以利於精確定位。
首先,將小片段 DNA 模板與檢測晶元上的poly-dT 引物進行雜交並精確定位,然後逐一加入熒游標記的末端終止子。這個終止子與 Illumina 的終止子可不一樣,不是四色的,是單色的,也就是說所有終止子都標有同一種染料。
在摻入了單個熒游標記的核苷酸後,洗滌,單色成像,之後切開熒光染料和抑制基團,洗滌,加帽,允許下一個核苷酸的摻入。通過摻入、檢測和切除的反復循環,即可實時讀取大量序列。最後以軟體系統輔助,可分析出完整的核酸序列。
缺點 :Heliscope 在面對同聚物時也會遇到一些困難,但可以通過二次測序提高准確度;由於在合成中可能摻有未標記的鹼基,因此其最主要的錯誤來源是缺失。
PacBio SMRT(single molecule real time sequencing)技術也應用了邊合成邊測序的思想,並以SMRT 晶元為測序載體。
基本原理是:DNA 聚合酶和模板結合,4 色熒游標記4 種鹼基(即是dNTP),在鹼基配對階段,不同鹼基的加入,會發出不同光,根據光的波長與峰值可判斷進入的鹼基類型。
DNA 聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受激光對其造成的損傷所影響。
PacBio SMRT 技術的一個關鍵是怎樣 將反應信號與周圍游離鹼基的強大熒光背景區別出來 :
優缺點:
該技術的關鍵之一是,它們設計了一種特殊的納米孔,孔內共價結合有分子接頭。當DNA 鹼基通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種鹼基所影響的電流變化幅度是不同的),靈敏的電子設備檢測到這些變化從而鑒定所通過的鹼基。
測序原理:
特點:
Nanopore 測序儀 MinION 的一些特徵:
ONT公司目前推出的幾款測序儀:
在analysis文件夾中,下機的數據被分割為三個文件進行存儲
數據的命名:
Pacbio 數據的文庫模型是兩端加接頭的啞鈴型結構,測序時會環繞著文庫進行持續的進行,由此得到的測序片段稱為 polymerase reads ,即一條含接頭的測序序列,其長度由反應酶的活性和上機時間決定。目前,採用最新的 P6-C4 酶,最長的讀長可達到 60kb 以上。
polymerase reads 是需要進行一定的處理才能獲得用於後續分析的。這個過程首先是去除低質量序列和接頭序列:
處理後得到的序列稱為 subreads ,根據不同文庫的插入片段長度,subreads 的類型也有所不同。
對長插入片段文庫的測序基本是少於2 passes的(pass即環繞測序的次數),得到的reads也稱為 Continuous Long Reads (CLR) ,這樣的reads測序錯誤率等同於原始的測序錯誤率。
而對於全長轉錄組或全長16s測序,構建的文庫插入片段較短,測序會產生多個passes,這時會對多個reads進行一致性校正,得到一個唯一的read,也稱為 Circular Consensus Sequencing(CCS)Reads ,這樣的reads測序准確率會有顯著的提升。
不同於二代測序的鹼基質量標准Q20/Q30,三代測序由於其隨機分布的鹼基錯誤率,其單鹼基的准確性不能直接用於衡量數據質量。那麼,怎麼判斷三代測序的數據好不好呢?
需要關注的是兩個比例:
目前採用的組裝策略:
這四種組裝策略並不是完全孤立的,在一個組裝任務的不同階段會用到不同的方法
不同的組裝策略可以選用的工具:
基因組的組裝問題,實際上就是從序列得到的圖中搜尋遍歷路徑的問題,有兩種構建圖的方法:
可以看到,隨著reads長度的增加,基於OLC演算法的組裝工具組裝出的contigs的長度幾乎在線性增長,而基於de Bruijn圖演算法的組裝效果並沒有隨著reads長度的增加而提高
三代單分子測序會產生較高的隨機錯誤,平均正確率在82.1%-84.6%。這么高的錯誤率顯然不能直接用於後續的分析,需要進行錯誤校正:
校正過程中會將short reads未覆蓋到的Gap進行裁剪,short reads在PacBio long reads上的覆蓋情況:
這樣做的其中一個考慮是去除adapter
那麼是什麼原因導致了低覆蓋度區域的產生的呢?
Base-calling做的就是從測序儀輸出的電流信號波形圖中將鹼基解碼 (decoding) 出來
第一步就是就是對波形圖進行分段 (segmentation),即檢測每個current shift的邊界,這一步由ONT公司提供的 MinKNOW 完成,但是分段基於的假設是ssDNA分子勻速穿過nanopores,但是由於ssDNA穿過nanopore的速度很快,很容易產生一兩個鹼基的速度差異,這樣就容易在decoding時造成insert和delete
接著就基於current shift進行base calling,ONT公司提供的base caller為Metrichor,其底層演算法基於HMM,將可能的k-tuple(由k個鹼基組成的序列)作為隱藏狀態,將current signals作為觀測狀態。ONT公司最新開發出的Metrichor用RNN取代了HMM,並將其整合到其開發出的新的生物信息數據分析平台EPI2ME中
隨後,科研圈又開發出了開源的base calling工具,Nanocall 和 DeepNano。
ONT後來又在github上開源了一個RNN base-caller —— Nanonet
測序時,測序儀 MinION 連接上主機,安裝在主機上的軟體 MinKNOW 控制測序儀,對於每條reads,其 signal segmentation 結果(包括segment mean, variance and ration)以及測序過程中的 metadata 會被保存成FAST5格式的二進制文件(基於 HDF5標准 的變種)。
保存在FAST5文件中的原始數據會經過雲端的Metrichor的處理,產生的解碼的序列會被保存在另外的以 .FAST5 為後綴的HDF5文件中,包含一條template read和一條complement read或只有一條 2D read 。
MAP (MinION Access Programme) community 開發出的用於處理FAST5文件的工具,它們均能從FAST5文件中解析出FASTA/FASTQ文件,除此之外還有各自特色的質量統計功能:
參考資料:
(1) 生物技能樹論壇:PacBio sequence error correction amd assemble via pacBioToCA
(2) 天津醫科大學,伊現富《系統生物學-chapter2》
(3) Nanopore 第四代測序技術簡介
(4) Magi A, Semeraro R, Mingrino A, et al. Nanopore sequencing data analysis: state of the art, applications and challenges.[J]. Briefings in Bioinformatics, 2017.
(5) 細節曝光!Oxford Nanopore真機還原,聽聽圈內人怎麼說
(6) 三代測序--QC篇
(7) PacBio Training: Large Genome Assembly with PacBio Long Reads
(8) Koren S, Schatz M C, Walenz B P, et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.
(9) 冷泉港ppt:Hybrid De Novo Assembly of Eukaryo6c Genomes
(10) Leggett R M, Darren H, Mario C, et al. NanoOK: multi-reference alignment analysis of nanopore sequencing data, quality and error profiles[J]. Bioinformatics, 2016, 32(1):142-144.
B. 什麼是人類基因組計劃科學家們使用怎麼樣的技術策略來完成它
人類基因組計劃(human genome project, HGP)是由美國科學家於1985年率先提出,於1990年正式啟動的。美國、英國、法蘭西共和國、德意志聯邦共和國、日本和我國科學家共同參與了這一價值達30億美元的人類基因組計劃。這一計劃旨在為30多億個鹼基對構成的人類基因組精確測序,發現所有人類基因並搞清其在染色體上的位置,破譯人類全部遺傳信息。
HGP的主要任務是人類的DNA測序,包括的四張譜圖[遺傳圖譜(genetic map),物理圖譜(physical map),序列圖譜 ,基因圖譜],此外還有測序技術、人類基因組序列變異、功能基因組技術、比較基因組學、社會、法律、倫理研究、生物信息學和計算生物學、教育培訓等目的。
大規模測序基本策略
逐個克隆法:對連續克隆系中排定的BAC克隆逐個進行亞克隆測序並進行組裝(公共領域測序計劃)。
全基因組鳥槍法:在一定作圖信息基礎上,繞過大片段連續克隆系的構建而直接將基因組分解成小片段隨機測序,利用超級計算機進行組裝(美國Celera公司)。
C. 睡蓮基因組與開花植物的早期進化
睡蓮屬於被子植物睡蓮目(Nymphaeales)。無油樟目(Amborellales)、睡蓮目(Nymphaeales)和木蘭藤目(Austroleyales)共同組成了早期被子植物類群(ANA被子植物類群),它們是現存被子植物的代表,從譜系分化的最早期發展到現存的被子植物。在此,我們公布了藍星睡蓮( Nymphaea colorata )的基因組(409Mb)。系統發育組顯示,睡蓮和無油樟屬於早期被子植物類群。通過藍星睡蓮基因組及其他19個睡蓮的轉錄組分析,顯示睡蓮科祖先發生了一次全基因組復制事件,這次復制事件可能由睡蓮科(Nymphaeaceae)和蒓菜科(Cabombaceae)所共享。在全基因組復制事件保留的基因中,有調節花期轉變和花期發育的同源基因。藍星睡蓮中花ABCE同源基因的廣泛表達,可能揭示了在早期被子植物花器官中可能具有類似廣泛活躍的ABCE祖先模型。睡蓮進化出了迷人的花香和顏色,這是被子植物共有的特徵,在藍星睡蓮中我們推測出了它們的生物合成基因。花香味背後的化合物和生物合成基因表明,它們的進化與被子植物是平行的。由於其獨特的系統發育位置,藍星睡蓮基因組揭示了被子植物的早期進化。
許多睡蓮屬( Nymphaea )物種,特別是睡蓮科(Nymphaeaceae)的睡蓮,花朵大而艷麗,屬於被子植物(也稱為開花植物)。它們的美深深吸引著許多著名的藝術家,例如法國印象派畫家莫奈(Claude Monet)。睡蓮的花被(外部花器官)分化有限,但它們同時具有雄性和雌性器官,並且具有多種不同的氣味和顏色,與許多被子植物(核心被子植物,包括雙子葉植物,單子葉植物和木蘭科植物)相似(Supplementary Note 1)。此外,一些睡蓮的生命周期短,種子數量多,這增加了它們作為早期被子植物類群(ANA被子植物類群)模式植物代表並研究被子植物內部早期進化事件的潛力。特別是,藍星睡蓮( N. colorata )的基因組相對較小(2n = 28;約400 Mb),且藍色的花瓣使它在育種中很受歡迎(Supplementary Note 1)。
在此,我們利用PacBio RSII單分子實時(SMRT)測序技術獲得的藍星睡蓮( N. colorata )基因組序列。基因組組裝成1429條contigs (contig N50為2.1Mb),總長度409 Mb, 804個scaffolds,其中770個scaffolds錨定在14條染色體上(Extended Data Fig. 1 and Extended Data Table 1)。基因組完整性評估為94.4%(Supplementary Note 2)。我們對31580個編碼蛋白基因進行了注釋,並預測了總長度為160.4 Mb的重復元件,占總基因組的39.2%(Supplementary Note 3)。
藍星睡蓮( N. colorata )基因組為解決無油樟目(Amborellales)、睡蓮目(Nymphaeales)和所有現存被子植物之間的關系提供了一個機會( Fig. 1a )。使用六個真雙子葉植物,六個單子葉植物,藍星睡蓮及無油樟屬,每三個裸子植物(銀杏( Ginkgo biloba )、雲杉( Picea abies )和火炬松( Pinus taeda ))作為又一個類群,我們分別鑒定了2169、1535和1515個 直系同源低拷貝核基因(****LCN****) ( Fig. 1b )。當使用銀杏( Ginkgo biloba )作為外群時,從核苷酸序列推斷出的LCN基因樹中,62%(475中的294)將無油樟(Amborella)作為所有現存被子植物的姐妹系,且自展支持度(bootstrap support)大於80%(type II, Fig. 1c )。而當使用雲杉( Picea abies )和火炬松( Pinus taeda )作為外群時,在LCN基因樹中,分別有57%和54%將無油樟(Amborella)作為所有現存被子植物的姐妹系,即支持無油樟(Amborella)是最早的被子植物類群。且利用氨基酸序列推斷出的LCN基因樹具有相似的系統發育模式(Supplementary Note 4.1)。
為了使稀疏分類單元采樣的潛在缺陷最小化,我們還使用來自44個基因組和71個轉錄組的序列,包括ANA被子植物類群,雙子葉植物,木蘭類植物,單子葉植物和裸子植物外群(買麻藤( Gnetum montanum )、銀杏( Ginkgo biloba )、雲杉( Picea abies )和火炬松( Pinus taeda ))的代表來推論被子植物的物種進化樹。為了對這115個物種進行進一步的系統發育推斷,我們根據不同的標准選擇了5種不同的LCN基因集,包括1167、834、683、602和445個基因。對這五個數據集的分析均得出與無油樟(Amborella)相似的樹形拓撲,睡蓮目(Nymphaeales)作為所有其他現存被子植物的連續姐妹系。
使用101個嚴格的LCN基因以及基於21個化石的年齡對被子植物譜系的分子年代測定進行校準。推斷出被子植物的冠齡為2.34-2.63億年前(Ma)( Fig. 1d )。單子葉植物和雙子葉植物之間的分界估計在1.71-2.02億年之間,而睡蓮科(Nymphaeaceae)和蒓菜科(Cabombaceae)之間的分化在1.47-1.85億年之間。
基因組共線性揭示了藍星睡蓮( N. colorata )發生全基因組復制(WGD)事件的證據(Extended Data Figs. 1f, 2a and Supplementary Note 5.1)。藍星睡蓮(N. colorata)旁系同源基因的每個同義位點上的同義替換( Ks )分布的數量進一步表明,有一個 Ks 約為0.9的顯著峰值( Fig. 2a ),而在其他睡蓮科(Nymphaeaceae)物種中也鑒定到了類似的 Ks 峰值(Supplementary Note 5.2)。這表明,一個古老的單一的全基因組復制事件(WGD)可能是睡蓮科成員所共有的。通過比較藍星睡蓮( N. colorata )旁系同源與藍星睡蓮( N. colorata )和其他睡蓮目世系(Nymphaeales lineages)、紅茴香( Illicium henryi )、無油樟( Amborella )之間的直系同源(代表物種形成事件) Ks 分布,發現全基因組復制事件(WGD)發生在睡蓮科(Nymphaeaceae)與蒓菜科(Cabombaceae)分化之後( Fig. 2a )。相比之下,對至少包含一個來自藍星睡蓮( N. colorata )共線區域的旁系同源基因家族的系統基因組學分析表明,全基因組復制事件(WGD)在睡蓮科(Nymphaeaceae)和蒓菜科(Cabombaceae)之間共享( Fig. 2b , Supplementary Note 5.4)。如果屬實,那麼蒓菜科水盾草( Cabomba caroliniana )似乎保留了很少的重復( Fig. 2b, c ),這也可以解釋水盾草( Cabomba caroliniana )旁系同源Ks分布中沒有明顯的峰(Supplementary Note 5.2)。考慮到Nymphaealean譜系中可變替換率( Fig. 2a****, b , Extended Data Fig. 2c),對藍星睡蓮( N. colorata )的絕對年代測定確實表明,全基因組復制事件(WGD)可能發生在睡蓮科(Nymphaeaceae)與蒓菜科(Cabombaceae)分化之前或接近於它們的分化(Extended Data Fig. 2d, Supplementary Note 5.3)。對上述結果的另一種解釋可能是,全基因組復制事件來自於發生在睡蓮科祖先和蒓菜科系譜之間的異源多倍事件,在它們分化後不久,睡蓮科(但不是蒓菜科)的主幹分支得以興起( Fig. 2d , Supplementary Note 5.4)。
睡蓮起源於被子植物早期分化的一個分支,早於被子植物大范圍的輻射擴張。因此,睡蓮家族為了解被子植物,特別是開花植物的早期進化,提供了一個獨特的窗口。我們鑒定了70個MADS-box基因,包括參與花器官發育ABCE模型的同源基因: AP1 (還有 FUL) 及 AGL6 (A參與萼片和花瓣發育), AP3 和 PI (B參與花瓣和雄蕊發育), AG (C參與雄蕊和心皮發育), 以及 SEP1 (E與ABC功能蛋白相互作用)。對MADS-box基因及其基因組鄰域的系統發育和共線性分析表明,在種子植物分化之前就存在古老的串聯重復,產生了A功能基因( FUL )和E功能基因( SEP )的祖先(Extended Data Fig. 3, Supplementary Note 6.1)。此外,由於睡蓮(Nymphaealean)全基因組復制事件(WGD),藍星睡蓮( N. colorata )具有兩個旁系同源基因,即C功能基因AG的AGa和AGb(Extended Data Fig. 4)。類似地,由睡蓮(Nymphaealean)WGD衍生的重復序列同與心皮和雄蕊發育相關的其他基因、以及調控開花時間及生長素調控花的晝夜開合的基因是同源的(Extended Data Figs. 4–6, Supplementary Note 6.2–6.4)。
藍星睡蓮( N. colorata )ABCE同源基因的表達譜與它們在花器官中推測的作用基本一致( Fig. 3a )。值得注意的是,藍星睡蓮( N. colorata ) AGL6 同源基因主要在萼片和花瓣中表達,而 FUL 同源基因主要在心皮中表達,說明 AGL6 在藍星睡蓮( N. colorata )中起A功能基因的作用。兩種C功能同源基因 AGa 和 AGb 分別在雄蕊和心皮中高表達,而 AGb 也在萼片和花瓣中表達,表明它們可能在睡蓮(Nymphaealean)WGD後經歷了花發育的亞功能化和可能的新功能化。此外,與雙子葉模型系統相比,藍星睡蓮( N. colorata )的ABCE同源基因在花器官中的表達范圍更廣( Fig. 3b )。這種更廣泛的表達模式,與至少一些ABCE基因在一些雙子葉植物中更廣泛的表達相結合,代表了一個早期分化譜系,一些單子葉植物和木蘭類植物,提出了一種古老的ABCE花發育模型,在被子植物,特別是核心雙子葉植物的進化過程中,隨後渠限化基因的表達和功能受到更特異的ABCE基因的調控。這也可以解釋為什麼在睡蓮屬植物中萼片和花瓣的分化是有限的,這與被子植物祖先花中花被器官的單一類型是一致的。
花香為昆蟲傳粉者提供嗅覺線索。然而無油樟屬的花是無香味的,藍星睡蓮的花釋放11種不同的揮發性化合物,包括萜類化合物(倍半萜烯)、脂肪酸衍生物(甲基癸酸酯)及苯環型化合物( Fig. 4a )。藍星睡蓮基因組包含92個假定的萜烯合酶( TPS )基因,這些基因歸屬於被子植物中4個已知的TPS亞家族:TPS-b, TPS-c, TPS-e/f 及TPS-g( Fig. 4b ),但是在被子植物中沒有發現負責倍半萜生物合成的TPS-a。值得注意的是,在藍星睡蓮中,TPS-b亞家族含有80多個基因;其中NC11G0123420在花中高表達(Extended Data Fig. 7);這一結果表明,該基因可能是藍星睡蓮倍半萜烯生物合成酶的候選基因。此外,並未在單子葉和雙子葉揮發性化合物中檢測到癸酸甲酯,其被認為是由藍星睡蓮( N. colorata )SABATH甲基轉移酶家族合成的。藍星睡蓮( N. colorata )基因組包含13個 SABATH 同源基因,其中12個形成睡蓮目特異性家族(Supplementary Fig. 41)。在這12個成員中,NC11G0120830在花瓣中表達最高( Fig. 4c ),並且其相應的重組蛋白被證明是脂肪酸甲基轉移酶,其以癸酸為底物具有最高的活性( Fig. 4d , Supplementary Note 7.1)。這些結果表明,藍星睡蓮( N. colorata )的花香生物合成是通過酶的功能完成的,而酶的功能是獨立於被子植物的功能而進化的( Fig. 4e )。
睡蓮( Nymphaea colorata )美麗迷人的藍色花瓣被認為是很有價值的,這在觀賞植物中是較為罕見的特徵。為了理解藍色的分子基礎,我們鑒定到翠雀素(3′- O -(2″- O -galloyl-6″- O -acetyl-β-galactopyranoside))為主要藍色花青素色素(Extended Data Fig. 8a–c)。通過比較兩個藍星睡蓮品種中白色和藍色花瓣中花青素生物合成途徑中基因的表達譜,我們發現花青素合酶和翠雀素修飾酶基因的表達在藍色花瓣中明顯高於白色花瓣(Extended Data Fig. 8d, e)。這兩種酶催化花青素生物合成的最後兩個步驟,因此是藍色素生物合成的關鍵酶。
睡蓮在全球范圍均有分布,包括寒冷地區(中國北部及加拿大北部),這與其他ANA被子植物類群不同,無油樟屬僅在太平洋島嶼有分布,而八角茴香目僅在溫帶和熱帶地區有分布。與無油樟屬及一些被子植物相比,我們發現藍星睡蓮中與免疫和應激反應相關的基因明顯有擴張,包括編碼核苷酸結合富亮氨酸重復(NLR)蛋白、蛋白激酶和WRKY轉錄因子基因(Extended Data Fig. 9, Supplementary Note 8)。這些基因數量的增加可能使睡蓮適應了全球各種生態棲息地。
綜上所述,藍星睡蓮(N. colorata)基因組為比較基因組學和解決被子植物間的系統發育關系提供了參考。它還揭示了睡蓮科祖先發生的一次全基因組復制事件,並提供了關於被子植物早期發育及進化的重要見解,涉及諸如花的發育、花的氣味和顏色等。
Zhang, L., Chen, F., Zhang, X. et al. The water lily genome and the early evolution of flowering plants. Nature 577, 79–84 (2020). https://doi.org/10.1038/s41586-019-1852-5
大多數的種系發生重建方法會產生無根樹,但是觀察樹的拓撲結構無法識別樹根應在哪一分支上。實際中,對於要證實哪一個分類單元的分支先於其他的分類單元,樹根必須確定。
在無根樹中設定一個根,最簡單的方法是在數據集中增加一個外群(outgroup)。 外群是一種分類操作單元,且有外部信息表明外群在所有分類分類群之前就已分化。合適的外群與待分析的分類群關系不能相距太遠,因為在比較關系較遠的物種時,系統發生的信號會降低,這是核苷酸替換飽和的結果。使用一個以上的外群通常可以進一步改善推導的樹狀拓撲的准確度。
所謂的外類群就是與你研究的序列關系極為密切的序列,且外類群能很好的聚為一支(若外類群不止一條序列),若研究的是演化歷史,一般應選擇比目標序列具有較早進化歷史的序列作為外類群。
另一種可選的引入外群的方法是,使用兩套相同的、同時存在於待分析的所有分類操作單元中的並系同源基因。在這種方法中,第一個並系同源基因群中的基因可以成為第二個並系同源基因群中基因的外群。這種確定的系統已用於確定tree of life的第一層分支,樹根可以置於通向生命樹中細菌、古細菌以及真核細胞中任一分枝上。當使用單一外群時,根可以置於通向外群的分支上。另外,若使用多個外群,根必須置於連接外群和內群的分支上。
如果是鑒定物種,最好選一個外群。在缺少一個合適的外群時,根大約可以置於兩個分類操作單元間最長支的中點上。這種確定根的方法叫做中點定根(midpoint rooting),當在樹中所有分支的進化速度大致相同而且實際的外群與其它分類群間的支的長度不太短時,這種方法相當准確,但是中點生根這種方法慎用,它有一個假設前提:假設兩個最不同的譜系以相同的速率進化。顯然,這個假設現實中很可能不成立。
在進化過程中,新基因通常來自事先存在的基因,新基因的功能從先前基因的功能進化而來。新基因的原材料來自基因組區域的重復,這種重復可包括一個或多個基因。作為物種形成的伴隨事件而被重復,並繼續保持相同功能的基因,稱為直系同源基因(orthologous gene)。新的基因功能可由在單個物種的基因組中發生的重復引起的。在一個基因組內部的重復導致旁系同源基因(paralogous gene)。
Orthology VS Paralogy
Relation of sequences
Orthologs: similar sequences that have arisen e to a speciation event.
Functionality Retained.
Orthologs: members of a gene (protein) family in various organisms.
Paralogs: Similar sequences that have arisen e to a gene plication event.
Paralogs are not necessarily to have the same or similar functions. Probably become pseudogenes.
Paralogs: members of a gene (protein) family within a species.
Xenologs: Similar sequences that have arisen out of horizontal transfer events.
Examples: Transformation; Conjugation; Transction; Transgene
所謂Bootstraping法 就是從整個序列的鹼基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成了許多序列,一個多序列組也就可以變 成許多個多序列組。根據某種演算法(最大簡約性法、最大可能性法、除權配對法或鄰位相連法)每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比 較,按照多數規則(majority-rule)我們就會得到一個最「逼真」的進化樹。
Jackknife則是另外一種隨機選取序列的方法。它與Bootstrap法的區別是不將剩下的一半序列補齊,只生成一個縮短了一半的新序列。
在分支分類學中具有一個不為其他分類單元所共有的祖先的兩個分類單元稱為姐妹群。姐妹群是由一個祖種通過分裂產生的一對分支,是建立系統發育系統的基本結構,根據近裔共性加以識別。
D. 「鳥槍法」
鳥槍法(Shotgun method):使用基因組中的隨機產生的片段作為模板進行克隆的方法。
使用限制性內切酶將帶有目的基因的DNA鏈切成若干小段
再使用DNA連接酶將其整合到載體的基因中,並使其表達
如果在某個細胞中得到了目的產物,就說明整合到該細胞中的DNA片斷就是所需要的DNA片斷
E. 基因組測序的具體過程
講起來很復雜哈,簡單來說,就是邊合成邊測序,把所要測序的序列通過各種手段來建庫,然後加上5『和3』都加上接頭,放在一個小玻璃片一樣的晶元上,上面一般是8個lane,把樣品加入到lane上之後和上面長好的接頭序列相結合(之前的建庫時加的接頭與之反向互補),然後再經過PCR擴增的過程形成一個DNA簇,然後再進行新一條鏈的合成,在此合成過程中邊合成邊測序,沒加上去一個鹼基,機器就讀一次,根據其發到熒光來判斷加的是那種鹼基,這樣就能得到所要的序列信息了。
測序會有誤差的,就好比PCR擴增循環多了也會有誤差一樣,假如說在第一百個鹼基合成時其誤差是99.9%,那下一個的誤差就是99.9%*99.9%.....依次以指數形式遞增,到一定程度後測得的序列就不可靠了,所以會有一個極限,現在solexa的極限貌似比之前的150bp要長了。
當然以上都是指的Solexa的平台,454是焦磷酸測序原理,就又是一種方式了,這種方法得到的可靠序列長度之前說是500bp以上,現在估計都能測通1000bp了。
F. 矯正基因結構注釋 - 做有良心的基因家族分析
半個月前,我推了一個《任何人都能掌握-基因家族分析》的騰訊課程(原本事實是開給課題組)。在熱身課程(完全免費)中,將我個人對基因家族分析的認知和其意義均做了說明,感興趣的可見 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一點,即是,基因家族分析中一個常常被忽略甚至忽視的,對科研可能有所貢獻的步驟(可能很多培訓公司並不會涉及),那就是 矯正基因結構注釋 。
基因組,尤其是植物基因組,從測序,到組裝,到注釋,每一個都不簡單。甚至存在一種說法, 一篇基因組文章,一個組裝演算法 。而事實上,注釋也是類似的。即使是擬南芥或者水稻這兩個模式生物,都不能保證所有基因的結構都被注釋出來。更何況剛發表的基因組?
在基因家族分析講演中,有這么一個圖
在半個月前的講演中,其實也已經講過了,用在線網頁工具softberry就可以了,以上圖的 Aco005453.1為例,基於motif pattern和domain info,可以明顯地看出來,其缺少的是5端,GRAS結構域也被截斷了( 注意,這個在幾乎所有物種的基因組結構注釋文件都會出現,因為軟體永遠不可能保證絕對的准確,至少目前這個事情上是的 ,而菠蘿基因組已經做得很優秀了。)
1.首先,獲得這個基因的位置信息
使用TBtools的gff3 gene info工具
恩。。。我又試了幾個基因,基本無解。或者是正好基因與上下游有overlap,或者是基因結構預測後並沒有太大的改善。不過似乎也OK,畢竟我們大概可以知道其中兩個基因並不真實。
如果要證明他們是否真實, 可能還是需要RNAseq數據輔助,或者事實上,需要race實驗 。得到序列之後,再按照上述操作,用TBtools重構gff3即可。
嗯,意料之外,情理之中。
據我個人了解,菠蘿基因組應也是經過了基因結構注釋的人工矯正。所以從某個角度來說,大部分基因結構應是正確。可能單純從文本預測上,確實無法改善結構注釋信息。而只能發現一些確實有問題的序列。對於這些序列,或者是事實並不存在的假基因,或者是需要race實驗做進一步獲取。
無論哪一種途徑,得到序列之後可以直接用TBtools重構gff3信息,並修改原始gff3文件。做進一步分析。
G. 宏基因組shotgun入門筆記
目錄
根據分析對象和實驗目的,宏基因組的研究基本上可以分為
1. Pre-processing
2. Sequence analysis
包括兩種分析策略: read-based (mapping) 和 assembly-based
簡單來說,assembly-based approach 受到覆蓋度的制約,因為組裝時低覆蓋度的區域是不會進行組裝的,而是被丟棄,這樣低豐度的細菌的信息就被丟棄了,反映在reads利用率上,就是往往reads利用率極低,往往低於50%
而 read-based (mapping) approach 則受到reference databases的制約,因為細菌的遺傳多樣性很高,即便是同一個菌種,它的不同菌株,其基因組的組成也是有相對比較大的差異的,那麼在mapping的時候就會出現mapping不上的問題,使得mapping效率不夠高;而且只能分析reference databases中有的物種,對於reference databases未收錄的新物種,是無法進行分析的。
不過可用的微生物參考基因組正在迅速地增加,包括那些原先難以培養的細菌由於培養方法的改進,使得對其進行測序成為可能,再加上單細胞測序的途徑和 metagenomic assembly的途徑得到的基因組序列。現在一些類型的環境樣品(如人腸道)的參考基因組的多樣性已經可以滿足 assembly-free taxonomic profiling 的要求。
隨著測序成本的下降和測序深度的增加,其分析難度將會越來越大,制約效應也將會越來越明顯
預計的單位測序成本將會以指數關系下降,但其中計算成本下降的幅度會遠慢於測序成
在數據存儲和數據處理的層面上,rDNA和擴增序列的分析難度較小,基本可以在個人電腦或者小型伺服器上完成,但宏基因組全測序的分析卻主要受限於計算技術的發展
即使在同一個環境中獲取的不同樣本,其微生物組成也會存在比較大的差異,這使得在樣本集之間,尋找具有統計學顯著性和生物學意義的差異變得很困難。因此如何做到,在即使其影響因素的作用程度很小的情況下,也能有效地檢測出差異就顯得十分重要。
一種策略是,構造 pilot data,即將不同濃度的絕對定量 control (spike-in) 加入到樣本中,來評估實驗與分析方法的穩健性(robust);
另一種策略:two-tiered approach,即挑取少部分樣本,既做 16s rDNA 測序,又做 shotgun metagenomics 測序,對比這兩個層次的結果來評估實驗結果的穩健性。
兩種研究策略:
由於在研究宏基因組過程中,比如研究人類的微生物群,影響其微生物群的因素眾多,包括宿主基因型,年齡,飲食習慣等等,當進行兩個環境微生物群橫向比較時,很難做到控制變數,使得在進行比較分析時混入了許多干擾因素;此時如果進行單一環境微生物群多時間點采樣的縱向比較,就可以從很大程度上消除這種影響。
1. 樣本量與測序深度
當實驗目的是檢出顯著性差異時,樣本量與測序深度的選擇取決於(1)不同樣本間微生物組組成的一致性,(2)樣本固有的微生物多樣性,(3)影響因素的效應量(effect size)
建議:參考前人在類似環境中的研究。若沒有可參照的類似研究,選擇marker gene做預實驗
2. Confounding variables and control groups
在進行宏基因組研究時,往往很難找到與目標樣本集對應的沒有其他干擾因素的對照組
建議:目前最佳的解決策略是,盡可能地搜集各個樣本群體的元數據 (metadata),然後在隨後的比較分析中將它們考慮進去。比如臨床樣本,包括性別、年齡、是否使用抗生素/葯物、取樣位置、飲食習慣等等。比如環境樣本,包括地理位置、季節、pH、溫度等等。
元數據的搜集可以參照MIMARKS (Minimum information about a marker gene sequence) 和 MIxS (minimum information about any (x) gene sequence) 標准
3. Sample collection/preservation
樣本的處理和保存過程的差異會帶來系統偏差,比如when samples are provided from a number of locations by different research groups,或者在縱向研究中,不同取樣時間點的樣本的保存時間長短不一。有時這些處理步驟的效應量可能比你感興趣的生物學變數還大。
建議:盡可能按照相同的標准來進行取樣和保存
4. Biomass/Contamination
當前採用的基於測序的方法具有很高的靈敏度 (highly sensitive),即使非常微量的DNA也能被檢測出來。而實驗室中使用到的常規儀器和試劑並不是無菌的,這樣就很可能在實驗操作過程中,人為地引入污染。由於檢測方法的高靈敏度,當原樣本的微生物量很少時,污染帶來的信號很可能會蓋過真實的信號。
建議:在上機測序前,做好微生物量的定量 (qPCR)。當樣品中的微生物數量少於10 5 數量級時,其極有可能會受到背景污染的干擾。此時,可以參照以下的方法進行細胞/DNA的富集:
可以增設負對照實驗 (Negative control),對其進行與實際樣本相同的操作,使用相同的試劑,以此來找出污染的細菌類型,這樣就可以在後續的生物信息學分析過程中將其過濾掉。
5. 選擇合適的DNA提取方法
DNA提取的效果會直接對後續的實驗和分析產生巨大的影響。DNA提取方法的選擇依賴於樣品中細胞類型的組成,然而即使是相同類型的樣品其微生物組成也具有較大的差異(當人糞便中革蘭氏陰性菌主導時,細胞很容易裂解,而當由相對頑強的革蘭氏陽性菌主導時,則相反)。
因此不存在適用於所有樣品的最佳的DNA提取方案。
若方案選擇不當,則獲得的DNA主要來自於那些易裂解的細菌
建議:
Illumina測序儀通量大 (up to 1.5 Tb per run),且准確率高 (with a typical error rate of 0.1–1%),通過在不同樣本的序列上添加兩重barcode,可以一次測序多個samples。
然而,Illumina測序儀存在carryover (between runs) 和 carry-between (within runs)的問題。最新的測序儀由於使用了新的擴增方法 (ExAmp),導致較高比例的『index hopping』。
雖然沒有一個明確的指導意見,告訴你在哪個特定的環境樣品中應該測多大的覆蓋度,但是一個基本的原則就是通量要盡可能地大,這樣低豐度的細菌也能被測到。Illumina HiSeq 2500/4000, NextSeq 和 NovaSeq 的測序通量都很大,都適用於 metagenomics 的研究。
Metagenome de novo assembly 採用的策略與 whole-genome assembly 相同,均為 de Bruijn 圖方法
用 de Bruijn 圖方法進行宏基因組的從頭組裝時,面臨著以下的挑戰:
當進行單一基因組的組裝時,其有一個前提假設:整個基因組的測序覆蓋度是相對均勻的,這樣就可以利用覆蓋度信息來識別重復序列和鑒定測序錯誤和等位變異。
而metagenome中,各個組成基因組的覆蓋度取決於它們的物種豐度,低豐度物種的基因組就會由於總體測序深度不夠而使得最終組裝出來的基因組是支離破碎的。使用更短的 k-mer 有助於低豐度基因組的組裝,但是這會使得圖中重復 k-mer 的頻率大大增加,降低了組裝的准確性。
這需要組裝工具在考量低豐度物種與獲得高豐度物種更長更准確的contig之間進行權衡,即選擇合適的 k-mer :
同種細菌的不同菌株,它們的基因組組成很相近,常常就是一個鹼基的變異或者整個基因/操縱子的丟失,當進行 de Bruijn 圖組裝時,就會在這些差異的位置出現分叉,組裝工具在遇到這些分叉時,常常會停在這些位置,從而導致一個個不連續組裝片段的產生。
Meta-IDBA:將圖依據其拓撲結構拆分成各個元件,每個元件代表各個亞種的共有區域
解決計算能力與內存不足的策略:
Metagenome 組裝完成後,我們得到的是成千上萬的 contigs,我們需要知道哪些 contigs 來自哪一個基因組,或者都有哪些微生物的基因組。所以需要將 contigs 按照物種水平進行分組歸類,稱為 "bining"
一個很容易想到的策略就是,將組裝得到的片段與已知物種的參考基因組進行比對,根據同源性進行歸類。然而目前大多數的微生物的基因組還沒有測序出來,因此限制了這種方法的可行性。
目前主流的 bining 策略利用的是 contigs 的序列組成特點。
依據:來自同一菌株的序列,其核酸組成是相似的
例如根 據核酸使用頻率 (oligonucleotide frequency variations),通常是四核苷酸頻率(tetranucleotide frequency), GC含量 和 必需的單拷貝基因 等
優勢:即便只有一個樣品的宏基因組數據也可以進行binning,這在原理上是可操作的
不足:由於很多微生物種內各基因型之間的基因組相似性很高,想利用1個樣品的宏基因組數據通過核酸組成信息進行binning,效果往往並不理想或難度很大。利用核酸組成信息進行binning,基本上只適合那些群落中物種基因型有明顯核酸組成差異的,例如低GC含量和一致的寡核苷酸使用頻率
依據:來自同一個菌株的基因在不同的樣品中 ( 不同時間或不同病理程度 ) 的豐度分布模式是相似的【PMID: 24997787】。
原因:比如,某一細菌中有兩個基因,A和B,它們在該細菌基因組中的拷貝數比例為 A:B = 2:1,則不管在哪個樣品中這種細菌的數量有多少,這兩個基因的豐度比例總是為 2:1
優勢:這種方法更有普適性,一般效果也比較好,能達到菌株的水平
不足:必須要大樣本量,一般至少要50個樣本以上,至少要有2個組能呈現豐度變化 ( 即不同的處理,不同的時間,疾病和健康,或者不同的采樣地點等 ) ,每個組內的生物學重復也要盡量的多
對於像質粒這樣的可移動遺傳單元 (mobile genetic elements (MGEs)),由於其復制獨立於細菌染色體,則同一種細菌的不同個體,該質粒的拷貝數可能存在差異,使得無法用豐度信息進行有效地bining
將核酸組成信息和豐度差異信息創建一個綜合的距離矩陣,既能保證binning效果,也能相對節約計算資源,現在比較主流的binning軟體多是同時依據核酸組成和豐度變化信息
依據:不同的細菌,其基因組甲基化模式不同,平均一種細菌有3種特意的甲基化 motif。MGEs (mobile genetic elements) 中含有 MTase 基因,其基因水平轉移是細菌甲基化組多樣性的驅動因素。雖然 MGEs 在不同個體的拷貝數不同,但是都存在,因此具有相同 MGEs 的細菌個體,其總遺傳物質(包括染色體和 MGEs )都會受到相同的MTase的作用而得到相同的甲基化模式。
Q1:從哪些序列下手進行binning呢?
從原始的clean reads,還是從組裝成的contig,還是從預測到的gene,都可以。根據基於聚類的序列類型的不同,暫且分為reads binning, contig binning和 genes binning
比較這三種binning的優劣:
總體來說應用最廣泛的就是基於genes binning 和 contig binning
Genes binning的一般流程
在宏基因組做完組裝和基因預測之後,把所有樣品中預測到的基因混合在一起,去冗餘得到unique genes集合,對這個unique genes集合進行binning,主要是根據gene在各個樣品中的豐度變化模式,計算gene之間的相關性,利用這種相關性進行聚類
該圖中的聚類過程類似於 K-means聚類 :隨機選擇幾個seed genes作為誘餌,計算其他基因豐度分布模式與seed genes的相關性,按照固定的相關性值PCC>0.9,將它們歸屬於不同seed genes所代表的類,然後在聚好的類內重新選擇seed genes,進行迭代,最終聚類得到一個個基因集合,較大的集合(超過700個基因)稱為 metagenomic species (MGS),較小的集合稱為 co-abundance gene group (CAG)
基於 bining 結果進行單菌組裝:
比如對核酸組成信息的利用,開發得就不夠充分,四鹼基使用頻率因簡單而被廣泛使用和接受,但現在已有研究表明k-mer豐度信息也是很好的種系特徵,同時越長的k-mer含有越多的信息,還有基因和參考基因組間的同源關系也是有價值的種系信號,但這些都還沒有被自動化的binning軟體整合
想要獲得高質量的bins經常需要手動調整
Taxonomic profiling: identifies which microbial species are present in a metagenome and estimates their abundance
優點:
當然它也有局限性:
對於與人類密切相關的樣品,比如人腸道,可以使用該策略,而且已經有相關的成功實踐
By looking at co-abundant markers from preassembled environment-specific gene catalogs
即前人研究 (MetaHIT consortium) 已經得出特定環境下的微生物的組成,這些微生物中有某些 co-abundant markers(這些 marker genes 的豐度與其物種的豐度成正比),這樣就可以基於對這些 markers 的定量得到對應的物種豐度
選擇 markers 的不同策略:
當樣本量巨大,都進行組裝是明顯不切實際的,此時採用 marker-based approaches 是一個不錯的選擇;而且,如果該環境來源的樣本其組成微生物是研究比較充分時,marker-based approaches 能得到比較准確的物種定量結果。
Gene identification
Characterization of the functional potential of the microbiome
局限性 : lack of annotations for accessory genes in most microbial species
因為在評估微生物群體的代謝潛能時,只對那些高度保守和 housekeeping 類型的功能進行了注釋,這就解釋了,為什麼來自不同環境的不同樣品,它們的功能特徵常常是十分相似的,即使它們的物種組成有很大差異。
例如,鑒定出微生物群落中的抗生素抗性基因,該方法高度依賴特定功能相關基因集注釋的質量。
參考資料:
(1) 魏子艷, 金德才, 鄧曄. 環境微生物宏基因組學研究中的生物信息學方法[J]. 微生物學通報, 2015, 42(5):890-901.
(2) Quince C, Walker A W, Simpson J T, et al. Shotgun metagenomics, from sampling to analysis[J]. Nature Biotechnology, 2017, 35(9):833.
(3) 句句干貨!一文讀懂宏基因組binning
(4) Nielsen H B, Almeida M, Juncker A S, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes[J]. Nature Biotechnology, 2014, 32(8):822-828.
(5) Sangwan N, Xia F, Gilbert J A. Recovering complete and draft population genomes from metagenome datasets[J]. Microbiome, 2016, 4(1):8.
(6) Abubucker, S. et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput. Biol. 8, e1002358(2012).
(7) Beaulaurier J, Zhu S, Deikus G, et al. Metagenomic binning and association of plasmids with bacterial host genomes using DNA methylation.[J]. Nature Biotechnology, 2017, 36(1).
H. 簡述完整基因組自上到下的測序過程必要的三個步驟
全基因組測序是指對全部基因組完整測序 是決定一套完整染色體基因組上核苷酸鹼基準確順序組成的過程 基因組測序是一項龐大的工程 其中三個必需關鍵技術是DNA大片段的克隆 測序的自動化和用生物信息學處理數據 當一個基因組完成測序之後 應該對其進行注釋 全基因組測序主要應用於癌症
通常採用Fleischman等人在測定流感嗜血桿菌基因組中建立的 鳥槍隨機測序法 而後再將測序結果進行整合
1.建立隨機DNA文庫
通過噴霧器進行機械剪切或使用超聲波處理純度高 完整性好的基因組DNA 制備隨機片段 然後將隨機片段插入到適宜的測序載體中 隨機DNA文庫建立後 對文庫的隨機質量和容量進行鑒定
2.高通量測序
最大限度地從文庫中隨機挑取克隆制備測序模板 並使用多台自動化測序儀進行高通量測序
3.隨機片段的組裝
將測序結果輸入計算機 使用軟體根據重疊序列將隨機片段組裝起來以還原整個基因組序列
4.缺口的補平
由於使用的是隨機片段 因此在組裝過程中可能出現物理缺口 對於這種情況 可以根據缺口兩邊的序列設計引物 以完整的DNA為模板進行PCR擴增 得到缺失部分的序列
I. 序列組裝需不需要序列之間存在重疊部分
基因組組裝(Genome assembly)是生物信息學領域的核心問題,基因組組裝就是把序列測序產生的讀取片段reads經過序列拼接組裝,生成基因組的鹼基序列。基因組組裝軟體可根據得到的所有讀長組裝成基因組。基因組組裝這個步驟對於基因組分析是十分關鍵的,因為目前二代測序技術獲得的測序序列一般都較短,需要組裝拼接成較長的完整的序列用於進一步分析,例如長序列能提高物種注釋分析的准確性。
宏觀來說,基因組組裝可以分為從頭組裝(De novo assembly) 和映射比對組裝(mapping assembly), 從頭組裝是指不需要依靠任何已知的基因組信息,反過來,映射比對組裝就是需要把測序序列和參考基因組來比對,找到序列的對應位置再進行組裝,本文主要講解的從頭組裝。 當然兩種都有各個的用處,映射比對組裝也有一些演算法例如BWT演算法。
由於目前組裝技術的限制和實際情況的復雜性,最終組裝得到的序列與真實基因組序列之間仍可能存在差異,甚至只能得到若干條無法進一步連接起來的序列。對組裝效果的評價主要依由於據組裝序列的連續性、完整性和准確性。連續性要求組裝得到的(多條)序列長度盡可能長;完整性要求組裝序列的總長度占基因組序列長度的比例盡可能大;准確性要求組裝序列與真實序列盡可能符合。
目前基因組組裝一般有基於OLC(Overlap-Layout-Consensus, 先重疊後擴展)和基於De Brujin Graph(DBG)兩種組裝演算法,基於OLC的組裝方法適合長序列組裝,運行依賴的數據結構需要消耗大量的內存,且運行速度比較慢,錯誤率高,而DBG組裝方法內存消耗相對較低,運算速度快,且准確率高。目前主流的基因組裝演算法都是基於後者改進設計的。
基本概念
在開始之前,有幾個名詞需要說明下:
reads:就是我們測序產生的短讀序列,通常一代和三代的reads讀長在幾千到幾萬bp之間,二代的相對較短,平均是幾十到幾百bp。
contig:中文叫做重疊群,就是不同reads之間的overlap交疊區,拼接成的序列就是contig
scaffold:這是比contig還要長的序列,獲得contig之後還需要構建paired-end或者mate-pair庫,從而獲得一定片段的兩端序列,這些序列可以確定contig的順序關系和位置關系,最後contig按照一定順序和方向組成scaffold,其中形成scaffold過程中還需要填補contig之間的空缺。