由于大多數微生物的不可培養性,宏基因組學現已成為研究微生物群落最有效的手段,而利用宏基因組組裝基因組(MAGs)的有效性主要取決于微生物群體的復雜性、目標菌群的豐度以及測序的深度。目前利用Hi-C技術開展宏基因組研究已成為宏基因組組裝的新利器。今天小編就帶大家一起來看看Hi-C和宏基因組是如何完美結合的吧!
實驗設計與方法
數據來源: 從基因組分類數據庫(GTDB)中隨機選擇63個高質量的細菌基因組,設計了一個模擬的人類腸道微生物組。選擇標準:contig count<200,完整性>98%,總gap<500bp,共有223個滿足此標準的候選基因組;
真實腸道微生物樣本采用Illumina HiSeqX Ten PE150測序,宏基因組數據量為74.6G,兩個Hi-C文庫數據量分別為1.3G (SRR6131122)和1.2G(SRR6131124)。
數據分析:宏基因組數據使用宏基因組散彈槍模擬器MetaART產生18.2M pairs(250X);MetaART包含短讀數模擬器art-illumina(V2.5.1) Hi-C數據由兩種不同的四堿基酶(NEB:MluCI 和 Sau3Al)共產生200M read pairs。
數據處理
FastANI (v1.0)計算223個候選基因組序列之間的成對平均核苷酸一致性(ANI) ;采用BBTools (v37.25)對初始讀集按因子進行連續縮減采樣,初始的Hi-C讀集減少了4次,共5個不同深度(200M,100M,50M,25M,12.5M pairs)。Hi-C亞采樣的最大還原因子覆蓋深度為3.5x ~ 171x;對整個微生物群落的全基因組,使用last(v941)將SPADES集合產生的scaffolds與“封閉”的參考基因組對齊,構建出真實情況。
采用調整交互信息(AMI)(sklearnv0.19.2)和加權Bcubed(B3)兩種方法驗證基因組的分型,結果顯示B3更準確;由于bin3C不針對組裝校正,文章選擇使用scaffolds而不是contigs做基因組拼接。使用BWA MEM (v0.7.17 r1188)將模擬的和真實的Hi-C讀圖映射到各自的scaffolds上。使用samtools (v1.9) 處理生成的BAM文件,以刪除未映射的reads和補充及輔助對齊,然后按名稱排序并合并。
所選63個基因組的ANI范圍為74.8-95.8%(中位數77.1%),GC含量范圍為28.3-73.8%(中位數44.1%)沒有兩個基因組的相似性超過96%, ANI限制了深度測序物種的過度表達(圖1)。
圖1 GTDB分類
那么在宏基因組測序深度不變的情況下,不同的Hi-C覆蓋范圍如何影響bin3C正確檢索MAGs呢?
為了檢驗了bin3C的質量,Hi-C覆蓋深度從12.5 M至200 M 互作(圖2)。Hi-C覆蓋范圍從12.5 M增加到100 M互作時,AMI、B3和B3 F評分明顯增加,而100 M和200 M對之間的增加變緩慢。而隨著Hi-C覆蓋度增加,B3精度降低,但是下降較少。
在200 M 互作時AMI、B3和B3 F達到最大值(0.848、0.839、0.873)。在此深度下大于1,000 bp的數據中,22,279個通過了bin3C過濾,占95.4%。共有62個基因組庫大于50kbp,總大小為229,473,556bp,占整個宏基因組數據的95.6%,占參考基因組范圍的91.1%。其余小于50kb范圍的小集群總數為1,413,596 bp,占裝配范圍的0.6%,而低于1,000 bp未分析的為8,103,486 bp,占3.4%。
圖2 對5個模擬實驗進行bin3C方案驗證
B3作為一種軟聚類度量,既考慮了預測聚類內的重疊,又考慮了數據的真實性。在我們的模擬群體中,共享序列的區域為4.4%,意味著4.4%的序列分配是不明確的,由兩個或多個源基因組共享。盡管如此,bin3C解決方案是硬集群,將重疊contigs放在一個bin中。即使沒有錯誤,這也會使基本事實和最好的bin3C解決方案之間留下一個很小但無法逾越的鴻溝。
相反,AMI是一個硬聚類的方法,它需要通過拋硬幣的過程將基本事實中的每個共享contigs分配給一個源基因組。然而,當bin3C為此類contigs選擇一個bin時,任何一個源都同樣有效。由于這個原因,AMI的分數在有重疊基因組的情況下不太可能實現統一。
盡管存在這些技術上的問題,但是當考慮到整個宏基因組組裝的重復序列分配時,使用B3查全率和精密度對總體完整性和污染進行定量評估是可靠的。這與基于標記基因的完整性和污染的檢測方法不同,只有那些包含標記基因的重疊基因組才會對檢測結果產生影響。
隨著Hi-C覆蓋深度從12.5 M增加到200 M互作,bin3C的整體完備性從0.189增加到0.839。與此同時,用B3精密度推斷的總體污染從0.977略微下降到0.909。因此,bin3C在保持總體低污染程度的同時,對Hi-C覆蓋深度的增加做出了積極的響應。
接著,使用標記基因工具CheckM驗證了模擬菌群數據(圖3)。對于相對較大的Hi-C深度覆蓋范圍的增加,檢索到的MAGs數量的少量增加,為了解釋這一點,我們參考了bin3C提供的聚類報告,其中對于接近完整的MAGs,我們發現平均數量的contigs從77對12.5 M pairs增加到179對200 M pairs,而contigs的總數從2,550對增加到6,968對。因此,盡管標記基因相關的疊蓋層可以在較低的Hi-C覆蓋深度有效地找到,但要獲得每個MAG更完整的表達,需要更大的深度。
圖3 使用CheckM驗證使用bin3C檢索的MAGs
由于bin3C既依賴于所提供數據的質量,又依賴于數據的數量,因此在Hi-C覆蓋深度之外的這兩個影響結果的因素進行處理是非常重要的。宏基因組測序數據是形成Hi-C關聯的基礎,因此,對一個群落的采樣越徹底,效果就越好。
為了演示宏基因組數據對bin3C的影響,將模擬群落宏基因組測序深度降低了一半(至125x),并重新組裝了宏基因組。這此深度下,組裝數據為N50 6,289 bp和L50 4,353。長度超過1,000 bp的contigs共有43,712個,長度為187,388,993 bp,總數量為113,754個,長度為22,252,774 bp。這與全深度(250x)組裝形成對比,全深度(250x)裝配有N50 30,402 bp和L50 1,105, 23,364個contigs超過1,000 bp,總長度為232,030,334 bp,41,704個contigs,長度為240,133,820 bp。很明顯,測序深度的降低導致了組裝效果的下降。
然后,在宏基因組125X與250X時,分析了在相同的Hi-C覆蓋深度范圍內使用bin3C的效果,進行AMI驗證得分的比對(圖4)。二分之一深度集和全深度進行AMI驗證得分的比對表明,對于采樣更深入的群落bin3C對數據的組裝提升更大。完整性和污染的CheckM遵循類似的趨勢。
圖4 兩個不同宏基因組深度下bin 3C調整后的相互信息(AM)得分
在半深度的最佳結果生成了25個接近、4個基本和6個完全的MAGs模型,而在全深度的情況下生成了39個接近、4個基本和5個中等完整的MAGs。近年來,在制備宏基因組Hi-C文庫的過程中,使用了兩種不同的限制性酶。酶選擇的再生位點有不同的GC偏差。對于一個物種多樣的微生物群落,GC范圍很廣,這種策略的目的是更均勻地分離提取的DNA,從而覆蓋整個宏基因組的Hi-C。
當基于Hi-C的進行基因組組裝時,更均勻的覆蓋會帶來更好的結果。模擬一個雙酶庫,為了最接近真實實驗。重新利用這個數據,以確定使用兩個酶而不是單獨使用一個酶獲得了什么好處。模擬文庫中使用的兩種酶是Sau3Al和MluCL。雖然Sau3Al的限制位點^GATC是GC平衡的,但是MluCl的^AATT限制位點是AT富集的。模擬群落中,源基因組GC含量范圍為28.3 ~ 73.8%,其豐度隨機分布。對于Sau3AI,這些極端的GC含量轉化為預期的每338個bp中有1個(28.3%)和每427個bp中有1個(73.8%)的剪切位點頻率。對于不太平衡的MluCI,預期的切割頻率為每61個bp中有1個,為28.3%,每3,396個bp中有1個,為73.8%。因此,MluCI的位點密度在低GC范圍會非常高,而在高GC范圍會非常稀疏。
圖5 三種酶系統在同一模擬菌群的性能評估
對于模擬的群落全深度組裝,使用bin3C分析了三個Hi-C場景:使用Sau3Al或Sau3Al生成的兩個單酶庫和使用Sau3Al和MluCI的雙酶文庫。對相同Hi-C覆蓋深度的庫進行了性能評估。AMI而言,單一酶bin3C庫的性能低于Sau3Al + MluCI相結合的文庫(圖5)。兩種酶模型的優勢增長隨著深度的增加而增長,在Hi-C 100 M對互作時,AMI分數MluCI 0.63,Sau3Al 0.71而Sau3Al + MluCI 0.78。
使用與模擬群落相同的參數,用bin3C分析了真實的人類腸道微生物組。在95,521個長度大于1,000 bp的contigs中,29,653個具有足夠的信號被納入聚類。大于1,000 bp的contigs的總長度為517,309,710 bp,而Hi-C足夠的則為517,309,710 bp總觀測值為339,181,288個基點,占總觀測值的65.6%。超過50 kbp的296個簇的總長度為290,643,239 bp。聚類長度在10 kbp以上的為324,223,887 bp,占總聚類長度的45.1%。
圖6 bin 3C從真實人體腸道菌群中檢索MAGs,按完整性遞減估計(黑色圓圈)排序
使用CheckM分析了這296個基因組(圖6)。bin3C檢索了近55個、基本29個和中等完整的12個MAGs。就整個范圍而言。MAGs排名接近完成的范圍為1.68 Mbp到4.97 Mbp,而基本完成的范圍為1.56到5.46 Mbp,中等完成的范圍為1.22到3.40 Mbp。在宏基因組覆蓋范圍方面,MAGs排名接近完整,從5.9x到447.5x,大致從4.3倍到416.4倍,適度從3.7倍到83.4倍。bin3C解決方案得到17個高質量、78個中等質量和105個低質量的MAGs。
使用bin3C分析的真實微生物組在之前的研究中首次被報道,是以演示一種稱為ProxiMeta的宏基因組Hi-C分析服務?;贖i-C的宏基因組組裝,ProxiMeta是唯一的另一個完整的解決方案。由于ProxiMeta是一種專有服務,而不是開源軟件,所以通過重新分析他們工作中使用的相同數據集進行了比較。
據報道ProxiMeta檢索到35個接近、29個基本和13個中等完整的MAGs,而MaxBin檢索到20個接近、22個基本和17個近似完整的MAGs。在相同的元基因組Hi-C數據集上,我們發現bin3C檢索到55個接近、29個基本,和12個中等完成的MAGs(圖7a)。
圖7 MaxBin、ProxiMeta、bin3C在相同數據中檢索到的MAGs
相對于MaxBin, bin3C檢索到較少的中等完整的MAGs,但在其他方面顯示它更高的性能。相對于ProxiMeta,bin3C在相當程度上和中等程度完成的序列中具有相同的性能,同時檢索了另外20個接近完整的基因組,結果顯示改進了57%。
結果表明,與MaxBin、ProxiMeta 相比,bin3C具有更高的組裝精度,從而大大降低了污染率。當bin3C提升最高質量級別的MAGs時,主要是由于減少了對過量污染的回收。對于所有超過1 Mbp的基因組bin, bin3C的中位污染率為0.8%,而ProxiMeta中位污染為3.5%,MaxBin為9.5%。
結論
① bin3C這種公開的通用算法,可重復有效地檢索模擬和真實宏基因組數據中的MAGs;
② 更高深度的宏基因組測序對MAGs檢索的精確度和完整性有很強影響;
③ 與之前的MaxBin、ProxiMeta 相比,bin3C大大降低了污染率;
④ bin3C與MaxBin、ProxiMeta相比在人類腸道微生物組裝中獲得了更多完整的基因組;
⑤ 為獲得最佳的結果,建議使用雙酶消化模型構建Hi-C宏基因組文庫;
⑥ bin3C可以分析小于1,000bp的序列,但它們進入分析并不能改善MAG檢索。
參考文獻:
Matthew ZD , Aaron ED . bin3C: exploiting Hi-C sequencing data to accurately resolve metagenome-assembled genomes. Genome Biology. 2019.02.