納米孔測序,實現DNA超長讀長
轉自:生命奧秘 Aug 20, 2019
納米孔測序的早期采用者正在挑戰(zhàn)超長DNA讀取所能達到的極限,他們也在探索將這項技術應用于其它生物學問題。
今年2月,美國國家人類基因組研究所(National Human Genome Research Institute)的Adam Phillippy向基因組學界展示了一個完整的人類染色體重建圖。眾所周知,2000年發(fā)表的人類基因組序列只是一個支離破碎的草稿,近20年后,人類基因組序列仍然不完整。加州大學圣克魯茲分校(University of California at Santa Cruz, UCSC)的Karen Miga和他在國際端粒到端粒聯(lián)盟(Telomere-to-Telomere Consortium, T2T)的同事正致力于解決這一問題。他們在今年的基因組生物學和技術進步(Advances in Genome Biology and Technology, AGBT)會議上展示的完整X染色體是關鍵的第一步。
這項工作充分展示了納米孔測序的能力。納米孔測序可以讀取長達數十萬個堿基的序列——這個長度足夠讓科學家在密集的序列元素森林中探索那些一直困擾著蛋白組裝和分析領域的重復元件。UCSC的基因組研究人員、T2T項目的合作者Miten Jain指出,他們都有興趣不斷拓展讀長來深入基因組中的這些‘黑暗區(qū)域’。Jain通過他的團隊帶頭人Mark Akeson獲得了牛津納米孔技術(Oxford Nanopore Technologies, ONT)公司的資助。
Jared Simpson在安大略癌癥研究所(Ontario Institute for Cancer Research)的研究團隊。
基因組學研究人員對ONT公司自2014年上市以來開發(fā)的測序系統(tǒng)很感興趣。但是這項技術與其它測序平臺有很大的不同,而且作為市場上相對較新的技術,該平臺面臨著來自短讀長測序儀器生產商Illumina,以及來自長讀取測序競爭對手太平洋生物科學公司(PacBio)的激烈競爭,而Illumina目前正在收購PacBio。諾丁漢大學(University of Nottingham)的發(fā)育遺傳學家Matthew Loose表示,他們過去必須說服人們納米孔測序是有效的,并且它可以應用于高通量和大規(guī)模測序中。
但隨著ONT的平臺變得更加成熟,且在基因組組裝和分析領域小試牛刀后,該系統(tǒng)的早期采用者表示,可以利用其獨特的設計來映射未知的染色體地形,同時也能在轉錄組和表觀基因組學等領域獲得前所未有的洞察力。Loose認為,人們還沒有真正發(fā)揮這項技術的潛力。
誤差修正
最初,納米孔測序最引人注目的方面是有效。ONT在2012年的AGBT會議上成為焦點,當時首席技術官Clive Brown介紹了MinION,一個拇指驅動大小的小部件,售價不到1000美元,可以生成150兆字節(jié)的DNA序列。這種微型設備不僅與現有的臺式儀器相去甚遠,而且其潛在的技術似乎也接近于科幻小說。每個MinION單元含有數千個嵌在膜上的蛋白孔,DNA鏈被捕獲并穿過孔洞,儀器通過檢測不同的核苷酸組合在通過孔洞時產生的電流變化來解碼序列。
加文醫(yī)學研究所(Garvan Institute of Medical Research)的Martin Smith(左)與團隊成員James Ferguson(中)和Hasindu Gamaarachchi(右)。
澳大利亞加文醫(yī)學研究所(Garvan Institute of Medical Research)基因組技術小組負責人Martin Smith表示,他都被這臺迷你測序儀震驚了。他原以為這只是個白日夢。Smith是通過ONT的MinION Access Program(MAP)獲得第一代儀器的一小群人之一。在這些早期用戶中,最初的反應通常是喜出望外的,但由于清楚地認識到系統(tǒng)的局限性,他們的反應相對緩和。Loose永遠不會忘記他們第一次運行MinION,并得到一個讀數。他們一直希望找到一臺這樣的儀器。但MinION的性能不夠穩(wěn)定,前后讀數不一致的情況也很頻繁。據安特衛(wèi)普大學(University of Antwerp)的生物信息學家Wouter De Coster回憶,他們每個人都花了一整天在文庫的準備工作和測序上,但MinION的讀取錯誤率高達30-40%。他還指出,運行結果往往是讀對或缺失,而且缺失的時候甚至比讀對的時候多。
在接下來的幾年里,通過對孔隙和流動池化學進行了多項改進,該技術的性能有了很大的提高。其中一個最大的飛躍發(fā)生在2016年,當時ONT用一個較新的R9.4孔取代了之前更易出錯的R7.3孔。R9.4是由大腸桿菌蛋白CsgG改造而來的。前烏得勒支大學(Universitair Medisch Centrum Utrecht)遺傳學家,現任生物技術初創(chuàng)公司Cyclomics的首席科學官Wigard Kloosterman指出,當時,他們在測序吞吐量方面取得了十倍的進步,準確率也有所提高,錯誤率約為11%。今年早些時候,該公司宣布推出R10,聲稱這是一種全新的孔隙結構。早期數據表明,R10可能有助于克服納米孔測序中最持久的問題之一—— “均聚物”序列包含特定核苷酸的連續(xù)重復,會產生難以辨認的模糊信號。
諾丁漢大學(University of Nottingham)的Matthew Loose。
法國原子能和替代能源委員會(French Commission for Atomic Energy and Alternative Energies)Genoscope實驗室的Jean-Marc Aury。
Jean-Marc Aury在法國原子能和替代能源委員會基因組研究所(Genoscope)領導著一個生物信息學家團隊,他是R10的早期使用者之一,并指出他的團隊已經觀察到了一些缺陷。Aury指出,個別讀取的錯誤率高于R9.4,但錯誤率更隨機,因此總的來說準確率更高??茖W家認為,把這兩種孔的差異結合到儀器上,可能是互補的。安大略省癌癥研究所(Ontario Institute for Cancer Research)的Jared Simpon目前正在探索這種可能性。他接受了ONT的研究資助。他表示,這兩種孔會給你不同的信號,這樣你就可以用一個孔接收另一個孔接收不到的信號。兩者的優(yōu)勢可以相互加強。
曲折前行
在這些硬件進步的同時,ONT公司內部和生信學家開發(fā)的計算軟件也在不斷進步。早期采用者面臨的最大挑戰(zhàn)之一是納米孔的數據看起來與市場領導者Illumina公司生產的數據非常不同,需要一個同樣獨特的工具箱。MinION運行的原始輸出包括電流的波動,這些波動隨后被轉換成“曲線”圖,然后可以通過專門的堿基調用軟件轉換成更熟悉的核苷酸序列串。
早期的堿基調用軟件相對容易出錯,但從2017年開始,這些程序開始使用神經網絡算法,可以將讀取級別的準確率提高到80%以上。ONT的基礎調用軟件的后續(xù)迭代,如剪貼算法,也有助于減輕均聚物的不必要影響。據Jain解釋,如果你有相同的堿基重復多次,那么你就不會看到離子電流的變化——你只會得到一條平線。這個算法能識別重復信號有多長,能大致知道處理這條鏈的速度。它可以利用速度和時間來估計堿基的數量。盡管研究結果并不完美,但它們消除了許多意外的、由錯誤解讀的均聚物引起的‘缺失’。
Scrappie通過調用原始數據而不是處理過的曲線來做分析,其它軟件工具也利用這些未經處理的測量數據來進一步提高測序精度。例如,Simpson在2015年開發(fā)了一種名為Nanopolish的工具,幫助完成了第一個完整的細菌基因組的納米組裝。該軟件使用原始的電流變化數據來糾正多次讀取中的重疊區(qū)域的錯誤。Simpson說:“我們真正要做的是深入了解影響信號的因素,并建立模型,最大限度地利用測序器?!?/p>
Nanopolish仍然被廣泛使用,盡管它的運行需要大量的計算,Simpson指出ONT已經發(fā)布了一種名為Medaka的替代工具,可以用更少的時間和更少的精力實現更高的精度。據他介紹,你無需一個高性能的計算系統(tǒng)——你只需要一臺筆記本電腦就足夠了。更普遍地說,這個一致性分析步驟為克服讀取級別的錯誤提供了一個關鍵的機會。軟件的進展推動納米孔測序的準確度超過99%,為其與Illumina等巨頭進行競爭奠定了基礎。Loose指出,測序領域對原始閱讀準確性始終有一種執(zhí)著,不過這并不總是一個重要的問題,更重要的是能否達成一致。
更大更好
即使在這種技術發(fā)展的背景下,直到幾年前納米孔測序仍然被廣泛認為是一種擁有商機的工具。事實證明,這種超便攜的“小分隊”是一種強大的野外應用工具,比如追蹤寨卡病毒的爆發(fā),以及在遙遠的南極洲測量環(huán)境樣本,但臨床研究和重新組裝基因組領域的主流技術還是Illumina和PacBio技術。
2017年4月,人們的觀念發(fā)生了重大轉變。當時由Loose和Kloosterman領導的兩個研究小組獨立地證明納米孔也可以分析完整的人類基因組。然而,這并非易事,它只是一個概念的證明,而不是現有全基因組測序策略的可行替代品。Loose那項研究的第一作者Jain指出,他們的組裝大約花費了15萬個CPU小時,如果他們在亞馬遜的網絡服務上運行它,那將花費他們大約3萬美元。雖然在三年之后,MinION的產量和可靠性都有了很大的提高,但這些微型設備與如此規(guī)模的項目并不匹配。例如,Kloosterman估計他的團隊花了半年時間利用122個流動池進行測序,以實現16個基因組的覆蓋。
此后,測序規(guī)模擴大變得更加簡單。經過兩年的早期檢測,ONT公司發(fā)布了PromethION,一種用于高通量測序的儀器。Loose表示,他們能夠在每個流動池上檢測6個人類基因組,他們在4天的測序中完成了40到85次的人類基因組檢測。早期用戶對此印象深刻,但需要注意的是,實驗結果在很大程度上取決于樣品制備的質量。De Coster指出,有了一個好的樣本和一個好的流動池,每次運行100千兆是絕對可行的。但如果你的DNA質量很差,每次就只能讀取30千兆或更少。該儀器目前的版本可以在一次實驗中運行24或48個流動池,用戶可以在一個滿載的儀器上收集幾個兆兆的堿基數據。
這使得PromethION在吞吐量方面與其它領先的測序平臺處于同一水平,盡管競爭仍然很激烈。例如,市場領導者Illumina報告,其頂級的NovaSeq 6000儀器可以在兩天的內利用兩個流動池生成多達6個兆兆堿基的序列數據,其輸出包括100-150個堿基的短配對讀取。在長讀方面,PacBio表示,其Sequel II儀器可以在30小時內為每個流動池生成320千兆堿基的讀取數據,輸出長達萬到十萬的堿基的配對讀取,平均每次讀取的準確率超過99%。
納米孔用戶還受益于為PacBio儀器開發(fā)的高效基因組組裝軟件的激增,這類軟件已成為重新組裝基因組的熱門選擇。許多最流行的工具,如MiniMap2和Canu,都是與平臺相互獨立的,并且可以根據不同系統(tǒng)生成的數據的特性進行配置,從而提供最佳的結果。約翰·霍普金斯大學(Johns Hopkins University)專攻測序技術的工程師Winston Timp想說的是,長讀長工具箱現在已經相當統(tǒng)一了。
原則上,納米孔測序中讀取長度只受能完整傳輸到空隙中的DNA片段大小的限制。這使得納米孔技術在構建超長序列裝配方面具有主要優(yōu)勢,而不存在與短讀拼接結構相關的問題。Aury指出,他們已經能夠對整個酵母菌染色體進行測序——大約有200到300千位堿基。Jain指出,事實證明,這種規(guī)模的讀取在提高人類基因組測序的質量方面是非常寶貴的。如今,用戶之間展開了友好的競爭,看誰能完成最長的單次讀取。Smith的實驗室在2017年底第一個突破1兆字節(jié)大關,Loose和他在伯明翰大學(University of Birmingham)的合作伙伴Nicholas Loman已經收到了來自維康信托(Wellcome Trust)的資助,用于建立一個“長閱讀俱樂部”,以開發(fā)突破讀長限制的策略。
如此大規(guī)模的測序絕非易事。目前市面上有售分離大型DNA片段的試劑盒——例如,Smith等人使用了BioNano Genomics為基因組圖譜平臺開發(fā)的一種技術,該技術的目的是在相當遠的距離內精確定位序列讀取的相對位置。然而,這些長鏈的行為不同于短鏈。Smith指出,長鏈DNA非常粘稠,就像凝膠塞一樣——讓其進入流動池可能是最棘手的部分。
納米孔測序也非常需要樣本,而且對樣本的準備要求非常嚴。在讀取長鏈DNA時,這個問題更為突出。但結果仍然令人震驚——在2018年末,Loose描述了一個2.3兆字節(jié)的序列,這個序列太長了,以至于堿基調用軟件錯誤地把它分成11個讀取,用戶一直在爭奪新的記錄?!盠oose表示,他們在Twitter上看到了令人印象深刻的結果。
填補空白
納米孔特別適合研究復雜基因組的結構變化。Kloosterman指出,人類基因組中的這些逆轉錄轉座子元素就是一個很好的例子。這些轉座子元素大約是6到8千堿基,如果讀長達到20千堿基,你可以從頭到尾看到它們。用250個堿基的讀長幾乎不可能重建這些數據,而頂尖的堿基精度對這類映射來說不是必不可少的。
De Coster等人一直在使用PromethION系統(tǒng)地識別人類基因組中重復的元素和其它結構變異的來源,聚焦檢測神經疾病的危險因素。De Coster表示,他們已經看到,他們可以預期在人類基因組中大約有2.7萬個大于50個核苷酸的結構變異,它們對人類之間的變異的貢獻超過單核苷酸多態(tài)性。在Kloosterman的經驗中,納米孔可以對大規(guī)模的序列重排類突變達到近乎完美的敏感性,例如癌癥基因組中常見的染色體異常,但對于小的錯誤,包括插入或刪除錯誤不敏感,在檢測單核苷酸突變上也不理想。
因此,大多數對重建全基因組感興趣的研究人員將納米孔與其它技術相結合,從而進一步提高裝配的連續(xù)性和準確性。例如,Aury的實驗室發(fā)現納米孔非常適合研究復雜的、通常高度多倍體的植物基因組,但它不能獨自完成全部工作。Aury指出,單是得到染色體規(guī)模的框架仍然是不夠的,所以他們一直在使用BioNano光學映射,你還需要Illumina的數據來完善一致性數據。
T2T團隊也采用了多管齊下的方法。在去年的初步試點工作中,Miga等人使用了一組200千堿基的讀數,為人類Y染色體上從未繪制過的著絲粒構建了一個序列支架。該論文的第一作者Jain指出,他們能夠組裝出一個315千堿基的著絲粒。值得注意的是,當他們開始構建時,并不知道它的長度。但是一旦拿到納米孔測序的讀數,他們就利用Illumina公司的短讀數據來完善最終的組裝。未來,T2T計劃把PromethION、PacBio和Illumina的數據,以及BioNano等遠程測繪技術的數據結合起來,正如他們在最近完成的X染色體重建中所做的一樣。
這種全面的基因組檢測在常規(guī)臨床應用中并不實用,但一些研究小組正在探索利用納米孔技術對單核苷酸突變進行高精度的靶向測序方法。Kloosterman與長期合作伙伴Jeroen de Ridder共同創(chuàng)立的Cyclomics公司開發(fā)了一種策略,可以捕獲并循環(huán)短DNA片段,然后反復進行酶復制,產生長串重復序列。然后可以對這些序列進行排序,以獲得高度準確的測序結果。Kloosterman希望通過在MinION上實現這一功能,能夠提供一種低成本、便攜的腫瘤DNA突變“液體活檢”技術。其它有針對性的測序策略有可能直接應用于原始DNA樣本。例如,Timp等人使用基因組編輯酶Cas9在感興趣的基因組位點上實現選擇性切割。然后,這些分裂的末端可以被“標記”為優(yōu)先測序,這使得被切割部分比未切割部分富集幾百倍。
Cyclomics創(chuàng)始人Jeroen de Ridder、Wigard Kloosterman和 Alessio Marcozzi。
打開一扇新的大門
隨著納米孔在DNA序列分析方面越來越有競爭力,研究人員也發(fā)現,這些微小的孔同樣適合研究其它各種生物分子。Timp表示,納米孔并不在乎你往里面放了什么。例如,他和Simpson使用納米孔來繪制與DNA甲基化相關的表觀遺傳標記。在MinION的早期,修改過的DNA堿基,如5-甲基胞嘧啶(5-mC),會對當前的讀數有混淆作用,會迷惑堿基調用軟件。但是,如果軟件能夠識別出修改產生的模式,并將其與正常堿基區(qū)別開來,那么這種噪音就可以被消除。Simpson和Timp合成了各種各樣的DNA序列,并在不同的位置和序列上下文中引入5-mC,然后他們訓練納米孔,使其能夠一致地辨別這些相同的模式。
他們將繼續(xù)合作鑒定其它自然發(fā)生的DNA修飾,最終得到的數據將被整合到未來的堿基調用軟件中,用于常規(guī)測序實驗。然而,納米孔測序的這一特點也可以用來研究染色體生物學的其它特征。例如,Timp的團隊使用甲基轉移酶對DNA樣本進行處理,甲基轉移酶優(yōu)先在相對開放的色譜層上標記序列(通常與主動轉錄的基因相關),然后通過納米孔測序檢測這些修飾模式。Timp表示,他們發(fā)現他們可以將染色質狀態(tài)和單個分子的甲基化相結合,從而識別具有等位基因特異性的印跡基因。
人們還可以通過相同的納米孔將RNA鏈串聯(lián)起來,這樣就可以直接分析完整的轉錄本,而不需要酶轉化為cDNA,這一過程可能會給轉錄組數據帶來偏差。最近合作完成了一個人類細胞株轉錄組mRNA的納米孔測序的Jain指出,你得到了一個自然的全長RNA的測量,這意味著你得到了所有的剪接連接。他們讀取了1000萬個RNA,最長的是2.2萬個堿基,跨度116個外顯子。領導這項研究的Timp指出,這些序列還包括全長的、在mRNA穩(wěn)定性和翻譯中具有重要的調控作用的poly(A)尾巴,而在基于cDNA的轉錄組學方法中通常會缺失poly(A)結構。考慮到均聚物存在的問題,納米空測序技術實現精確的定量可能是困難的,但是通過孔隙跟蹤傳輸時間的堿基調用軟件可以部分解決這個問題。
與基于cDNA的短讀RNA測序方法相比,轉錄組規(guī)模的納米孔數據的生成需要更多的人力。Aury指出,納米孔RNA測序對樣品品質要求非常高,所以你需要大量的RNA,而且產量仍然非常低。與Illumina或PacBio獲得的cDNA序列相比,納米孔測序對單個RNA讀取的錯誤率也更高。此外,就像DNA一樣,化學修飾會迷惑堿基調用軟件,從而進一步增加錯誤率。Smith表示,對于DNA,只有十幾種左右的修飾。但是RNA——尤其是核糖體RNA或tRNA——已知有數百種修飾。
但是,如果能夠訓練基本調用軟件識別和解釋這些修飾,那么后一個問題也是一個機會。巴塞羅那基因組調控中心(Center for Genomic Regulation in Barcelona)的Eva Maria Novoa等人最近發(fā)表了一篇預印文章,證明了最常見的mRNA修飾之一——N6-甲基腺苷可被納米孔測序識別。參與這項研究的Smith指出,他們觀察了來自這些修飾的堿基調用錯誤,發(fā)現錯誤率很低,但仍然存在問題。研究人員正試圖訓練出一種不僅能識別單個修飾,還能識別大量堿基多種組合帶有的大量修飾的軟件。這會進一步增加挑戰(zhàn)的難度。在Jain的團隊中,他們稱之為‘十年長征’。
盡管ONT在納米孔測序方面已經取得了令人敬畏的進展,其他公司和學術研究人員也在探索這項技術的潛力。例如,Roche一直在不動聲息地開發(fā)一種基于蛋白質納米孔的技術。該技術作為一種潛在的臨床診斷工具,是從初創(chuàng)公司Genia處獲得的。Ontera正在開發(fā)一種手持設備,使用固態(tài)納米孔,可以潛在地識別給定樣本中存在的核酸、蛋白質,甚至病原體。在華盛頓大學(University of Washington),Jens Gundlach的團隊一直在使用從分枝桿菌中提取的納米孔蛋白來研究核酸和各種“運動蛋白”之間的動態(tài)相互作用,比如解旋DNA的解旋酶。
對于幫助納米孔測序找到立足之地的早期用戶來說,這些各種各樣的進展正在給這個領域注入新的活力,并激發(fā)了人們對納米孔下一個分析對象的想象。蛋白質測序是Timp的首要目標,他指出,一些學術研究已經開始為這一方向掃清道路。Timp表示,他并不是說氨基酸測序很容易,但是想想質譜分析是多么痛苦。如果納米孔能做用于分析蛋白質,那就真是太棒啦!
原文檢索:
Michael Eisenstein. (2019) Playing a long game. Nature Methods,16:683-686.
張潔/編譯
聲明:本網所有文章(包括圖片和音視頻資料)系出于傳遞更多信息之目的,且明確注明來源和作者,不希望被轉載的媒體或個人可與我們聯(lián)系,我們將立即進行刪除處理。所有文章僅代表作者觀點,不代表本站立場。
這個厲害了