您好,歡迎光臨武漢菲沙基因信息有限公司
027-87224696 | marketing@frasergen.com | 中文|English 咨詢客服
MARKET DYNAMICS—— 市場動態 ——
首頁 > 市場與支持 > 市場動態
市場動態MARKET DYNAMICS

Genome Biology:利用Hi-C提升宏基因組組裝(bin3C)

發布時間:2019-3-18 10:16:55閱讀次數: 分享到:


       由于大多數微生物的不可培養性,宏基因組學現已成為研究微生物群落最有效的手段,而利用宏基因組組裝基因組(MAGs)的有效性主要取決于微生物群體的復雜性、目標菌群的豐度以及測序的深度。目前利用Hi-C技術開展宏基因組研究已成為宏基因組組裝的新利器。今天小編就帶大家一起來看看Hi-C和宏基因組是如何完美結合的吧!





實驗設計與方法

      數據來源: 從基因組分類數據庫(GTDB)中隨機選擇63個高質量的細菌基因組,設計了一個模擬的人類腸道微生物組。選擇標準:contig count<200,完整性>98%,總gap<500bp,共有223個滿足此標準的候選基因組;

真實腸道微生物樣本采用Illumina HiSeqX Ten PE150測序,宏基因組數據量為74.6G,兩個Hi-C文庫數據量分別為1.3G (SRR6131122)和1.2G(SRR6131124)。


      數據分析:宏基因組數據使用宏基因組散彈槍模擬器MetaART產生18.2M pairs(250X);MetaART包含短讀數模擬器art-illumina(V2.5.1) Hi-C數據由兩種不同的四堿基酶(NEB:MluCI 和 Sau3Al)共產生200M read pairs。



 數據處理

        FastANI (v1.0)計算223個候選基因組序列之間的成對平均核苷酸一致性(ANI) ;采用BBTools (v37.25)對初始讀集按因子進行連續縮減采樣,初始的Hi-C讀集減少了4次,共5個不同深度(200M,100M,50M,25M,12.5M pairs)。Hi-C亞采樣的最大還原因子覆蓋深度為3.5x ~ 171x;對整個微生物群落的全基因組,使用last(v941)將SPADES集合產生的scaffolds與“封閉”的參考基因組對齊,構建出真實情況。


        采用調整交互信息(AMI)(sklearnv0.19.2)和加權Bcubed(B3)兩種方法驗證基因組的分型,結果顯示B3更準確;由于bin3C不針對組裝校正,文章選擇使用scaffolds而不是contigs做基因組拼接。使用BWA MEM (v0.7.17 r1188)將模擬的和真實的Hi-C讀圖映射到各自的scaffolds上。使用samtools (v1.9) 處理生成的BAM文件,以刪除未映射的reads和補充及輔助對齊,然后按名稱排序并合并。


01

模擬菌群分析

        所選63個基因組的ANI范圍為74.8-95.8%(中位數77.1%),GC含量范圍為28.3-73.8%(中位數44.1%)沒有兩個基因組的相似性超過96%, ANI限制了深度測序物種的過度表達(圖1)。 




圖1 GTDB分類


        那么在宏基因組測序深度不變的情況下,不同的Hi-C覆蓋范圍如何影響bin3C正確檢索MAGs呢?

        為了檢驗了bin3C的質量,Hi-C覆蓋深度從12.5 M至200 M 互作(圖2)。Hi-C覆蓋范圍從12.5 M增加到100 M互作時,AMI、B3和B3 F評分明顯增加,而100 M和200 M對之間的增加變緩慢。而隨著Hi-C覆蓋度增加,B3精度降低,但是下降較少。


        在200 M 互作時AMI、B3和B3 F達到最大值(0.848、0.839、0.873)。在此深度下大于1,000 bp的數據中,22,279個通過了bin3C過濾,占95.4%。共有62個基因組庫大于50kbp,總大小為229,473,556bp,占整個宏基因組數據的95.6%,占參考基因組范圍的91.1%。其余小于50kb范圍的小集群總數為1,413,596 bp,占裝配范圍的0.6%,而低于1,000 bp未分析的為8,103,486 bp,占3.4%。



圖2 對5個模擬實驗進行bin3C方案驗證


        B3作為一種軟聚類度量,既考慮了預測聚類內的重疊,又考慮了數據的真實性。在我們的模擬群體中,共享序列的區域為4.4%,意味著4.4%的序列分配是不明確的,由兩個或多個源基因組共享。盡管如此,bin3C解決方案是硬集群,將重疊contigs放在一個bin中。即使沒有錯誤,這也會使基本事實和最好的bin3C解決方案之間留下一個很小但無法逾越的鴻溝。


        相反,AMI是一個硬聚類的方法,它需要通過拋硬幣的過程將基本事實中的每個共享contigs分配給一個源基因組。然而,當bin3C為此類contigs選擇一個bin時,任何一個源都同樣有效。由于這個原因,AMI的分數在有重疊基因組的情況下不太可能實現統一。


        盡管存在這些技術上的問題,但是當考慮到整個宏基因組組裝的重復序列分配時,使用B3查全率和精密度對總體完整性和污染進行定量評估是可靠的。這與基于標記基因的完整性和污染的檢測方法不同,只有那些包含標記基因的重疊基因組才會對檢測結果產生影響。


        隨著Hi-C覆蓋深度從12.5 M增加到200 M互作,bin3C的整體完備性從0.189增加到0.839。與此同時,用B3精密度推斷的總體污染從0.977略微下降到0.909。因此,bin3C在保持總體低污染程度的同時,對Hi-C覆蓋深度的增加做出了積極的響應。


        接著,使用標記基因工具CheckM驗證了模擬菌群數據(圖3)。對于相對較大的Hi-C深度覆蓋范圍的增加,檢索到的MAGs數量的少量增加,為了解釋這一點,我們參考了bin3C提供的聚類報告,其中對于接近完整的MAGs,我們發現平均數量的contigs從77對12.5 M pairs增加到179對200 M pairs,而contigs的總數從2,550對增加到6,968對。因此,盡管標記基因相關的疊蓋層可以在較低的Hi-C覆蓋深度有效地找到,但要獲得每個MAG更完整的表達,需要更大的深度。



圖3 使用CheckM驗證使用bin3C檢索的MAGs



02

文庫的建議

        由于bin3C既依賴于所提供數據的質量,又依賴于數據的數量,因此在Hi-C覆蓋深度之外的這兩個影響結果的因素進行處理是非常重要的。宏基因組測序數據是形成Hi-C關聯的基礎,因此,對一個群落的采樣越徹底,效果就越好。


        為了演示宏基因組數據對bin3C的影響,將模擬群落宏基因組測序深度降低了一半(至125x),并重新組裝了宏基因組。這此深度下,組裝數據為N50 6,289 bp和L50 4,353。長度超過1,000 bp的contigs共有43,712個,長度為187,388,993 bp,總數量為113,754個,長度為22,252,774 bp。這與全深度(250x)組裝形成對比,全深度(250x)裝配有N50 30,402 bp和L50 1,105, 23,364個contigs超過1,000 bp,總長度為232,030,334 bp,41,704個contigs,長度為240,133,820 bp。很明顯,測序深度的降低導致了組裝效果的下降。


        然后,在宏基因組125X與250X時,分析了在相同的Hi-C覆蓋深度范圍內使用bin3C的效果,進行AMI驗證得分的比對(圖4)。二分之一深度集和全深度進行AMI驗證得分的比對表明,對于采樣更深入的群落bin3C對數據的組裝提升更大。完整性和污染的CheckM遵循類似的趨勢。



圖4 兩個不同宏基因組深度下bin 3C調整后的相互信息(AM)得分


        在半深度的最佳結果生成了25個接近、4個基本和6個完全的MAGs模型,而在全深度的情況下生成了39個接近、4個基本和5個中等完整的MAGs。近年來,在制備宏基因組Hi-C文庫的過程中,使用了兩種不同的限制性酶。酶選擇的再生位點有不同的GC偏差。對于一個物種多樣的微生物群落,GC范圍很廣,這種策略的目的是更均勻地分離提取的DNA,從而覆蓋整個宏基因組的Hi-C。


        當基于Hi-C的進行基因組組裝時,更均勻的覆蓋會帶來更好的結果。模擬一個雙酶庫,為了最接近真實實驗。重新利用這個數據,以確定使用兩個酶而不是單獨使用一個酶獲得了什么好處。模擬文庫中使用的兩種酶是Sau3Al和MluCL。雖然Sau3Al的限制位點^GATC是GC平衡的,但是MluCl的^AATT限制位點是AT富集的。模擬群落中,源基因組GC含量范圍為28.3 ~ 73.8%,其豐度隨機分布。對于Sau3AI,這些極端的GC含量轉化為預期的每338個bp中有1個(28.3%)和每427個bp中有1個(73.8%)的剪切位點頻率。對于不太平衡的MluCI,預期的切割頻率為每61個bp中有1個,為28.3%,每3,396個bp中有1個,為73.8%。因此,MluCI的位點密度在低GC范圍會非常高,而在高GC范圍會非常稀疏。



圖5 三種酶系統在同一模擬菌群的性能評估


        對于模擬的群落全深度組裝,使用bin3C分析了三個Hi-C場景:使用Sau3Al或Sau3Al生成的兩個單酶庫和使用Sau3Al和MluCI的雙酶文庫。對相同Hi-C覆蓋深度的庫進行了性能評估。AMI而言,單一酶bin3C庫的性能低于Sau3Al + MluCI相結合的文庫(圖5)。兩種酶模型的優勢增長隨著深度的增加而增長,在Hi-C 100 M對互作時,AMI分數MluCI 0.63,Sau3Al 0.71而Sau3Al + MluCI 0.78。


       使用與模擬群落相同的參數,用bin3C分析了真實的人類腸道微生物組。在95,521個長度大于1,000 bp的contigs中,29,653個具有足夠的信號被納入聚類。大于1,000 bp的contigs的總長度為517,309,710 bp,而Hi-C足夠的則為517,309,710 bp總觀測值為339,181,288個基點,占總觀測值的65.6%。超過50 kbp的296個簇的總長度為290,643,239 bp。聚類長度在10 kbp以上的為324,223,887 bp,占總聚類長度的45.1%。



圖6 bin 3C從真實人體腸道菌群中檢索MAGs,按完整性遞減估計(黑色圓圈)排序


        使用CheckM分析了這296個基因組(圖6)。bin3C檢索了近55個、基本29個和中等完整的12個MAGs。就整個范圍而言。MAGs排名接近完成的范圍為1.68 Mbp到4.97 Mbp,而基本完成的范圍為1.56到5.46 Mbp,中等完成的范圍為1.22到3.40 Mbp。在宏基因組覆蓋范圍方面,MAGs排名接近完整,從5.9x到447.5x,大致從4.3倍到416.4倍,適度從3.7倍到83.4倍。bin3C解決方案得到17個高質量、78個中等質量和105個低質量的MAGs。



03

與之前的工作比較

        使用bin3C分析的真實微生物組在之前的研究中首次被報道,是以演示一種稱為ProxiMeta的宏基因組Hi-C分析服務?;贖i-C的宏基因組組裝,ProxiMeta是唯一的另一個完整的解決方案。由于ProxiMeta是一種專有服務,而不是開源軟件,所以通過重新分析他們工作中使用的相同數據集進行了比較。


        據報道ProxiMeta檢索到35個接近、29個基本和13個中等完整的MAGs,而MaxBin檢索到20個接近、22個基本和17個近似完整的MAGs。在相同的元基因組Hi-C數據集上,我們發現bin3C檢索到55個接近、29個基本,和12個中等完成的MAGs(圖7a)。




圖7 MaxBin、ProxiMeta、bin3C在相同數據中檢索到的MAGs


        相對于MaxBin, bin3C檢索到較少的中等完整的MAGs,但在其他方面顯示它更高的性能。相對于ProxiMeta,bin3C在相當程度上和中等程度完成的序列中具有相同的性能,同時檢索了另外20個接近完整的基因組,結果顯示改進了57%。


        結果表明,與MaxBin、ProxiMeta 相比,bin3C具有更高的組裝精度,從而大大降低了污染率。當bin3C提升最高質量級別的MAGs時,主要是由于減少了對過量污染的回收。對于所有超過1 Mbp的基因組bin, bin3C的中位污染率為0.8%,而ProxiMeta中位污染為3.5%,MaxBin為9.5%。


        結論

        ① bin3C這種公開的通用算法,可重復有效地檢索模擬和真實宏基因組數據中的MAGs;

        ② 更高深度的宏基因組測序對MAGs檢索的精確度和完整性有很強影響;

        ③ 與之前的MaxBin、ProxiMeta 相比,bin3C大大降低了污染率;

        ④ bin3C與MaxBin、ProxiMeta相比在人類腸道微生物組裝中獲得了更多完整的基因組;

        ⑤ 為獲得最佳的結果,建議使用雙酶消化模型構建Hi-C宏基因組文庫;

        ⑥ bin3C可以分析小于1,000bp的序列,但它們進入分析并不能改善MAG檢索。


配圖來源網絡/侵刪




        參考文獻:

        Matthew ZD , Aaron ED . bin3C: exploiting Hi-C sequencing data to accurately resolve metagenome-assembled genomes. Genome Biology. 2019.02. 















農學科研
表觀遺傳
基因組
重測序
轉錄調控
微生物
生物信息學服務
醫學臨檢
實體瘤基因檢測
血液腫瘤基因檢測
心血管精準用藥基因檢測
單基因遺傳病檢測
病原微生物產品
醫學科研
三代測序技術
單細胞測序技術
二代測序技術
三維基因組學技術
市場與支持
市場動態
菲沙課堂
產品速遞
關于菲沙
菲沙簡介
菲沙團隊
菲沙成果
技術平臺
合作伙伴
聯系我們
加入我們
校園招聘
社會招聘
聯系我們
  • 電話:027-87224696
  • 傳真:027-87224785
  • Email:support@frasergen.com
  • 地址:中國湖北省武漢市東湖高新技術開發區高新大道666號光谷生物城D3-1棟三樓
微信公眾號
Copyright ? 2018武漢菲沙基因信息有限公司 鄂ICP備13010493號-1. All Rights Reserved Designed by Wanhu

国产色精品vr一区二区_九色内射国产_欧美97色伦欧美一区二区日韩_国产91精品国语高清自产拍