納米孔測(cè)序,實(shí)現(xiàn)DNA超長(zhǎng)讀長(zhǎng)
轉(zhuǎn)自:生命奧秘 Aug 20, 2019
納米孔測(cè)序的早期采用者正在挑戰(zhàn)超長(zhǎng)DNA讀取所能達(dá)到的極限,他們也在探索將這項(xiàng)技術(shù)應(yīng)用于其它生物學(xué)問(wèn)題。
今年2月,美國(guó)國(guó)家人類基因組研究所(National Human Genome Research Institute)的Adam Phillippy向基因組學(xué)界展示了一個(gè)完整的人類染色體重建圖。眾所周知,2000年發(fā)表的人類基因組序列只是一個(gè)支離破碎的草稿,近20年后,人類基因組序列仍然不完整。加州大學(xué)圣克魯茲分校(University of California at Santa Cruz, UCSC)的Karen Miga和他在國(guó)際端粒到端粒聯(lián)盟(Telomere-to-Telomere Consortium, T2T)的同事正致力于解決這一問(wèn)題。他們?cè)诮衲甑幕蚪M生物學(xué)和技術(shù)進(jìn)步(Advances in Genome Biology and Technology, AGBT)會(huì)議上展示的完整X染色體是關(guān)鍵的第一步。
這項(xiàng)工作充分展示了納米孔測(cè)序的能力。納米孔測(cè)序可以讀取長(zhǎng)達(dá)數(shù)十萬(wàn)個(gè)堿基的序列——這個(gè)長(zhǎng)度足夠讓科學(xué)家在密集的序列元素森林中探索那些一直困擾著蛋白組裝和分析領(lǐng)域的重復(fù)元件。UCSC的基因組研究人員、T2T項(xiàng)目的合作者M(jìn)iten Jain指出,他們都有興趣不斷拓展讀長(zhǎng)來(lái)深入基因組中的這些‘黑暗區(qū)域’。Jain通過(guò)他的團(tuán)隊(duì)帶頭人Mark Akeson獲得了牛津納米孔技術(shù)(Oxford Nanopore Technologies, ONT)公司的資助。
Jared Simpson在安大略癌癥研究所(Ontario Institute for Cancer Research)的研究團(tuán)隊(duì)。
基因組學(xué)研究人員對(duì)ONT公司自2014年上市以來(lái)開(kāi)發(fā)的測(cè)序系統(tǒng)很感興趣。但是這項(xiàng)技術(shù)與其它測(cè)序平臺(tái)有很大的不同,而且作為市場(chǎng)上相對(duì)較新的技術(shù),該平臺(tái)面臨著來(lái)自短讀長(zhǎng)測(cè)序儀器生產(chǎn)商Illumina,以及來(lái)自長(zhǎng)讀取測(cè)序競(jìng)爭(zhēng)對(duì)手太平洋生物科學(xué)公司(PacBio)的激烈競(jìng)爭(zhēng),而Illumina目前正在收購(gòu)PacBio。諾丁漢大學(xué)(University of Nottingham)的發(fā)育遺傳學(xué)家Matthew Loose表示,他們過(guò)去必須說(shuō)服人們納米孔測(cè)序是有效的,并且它可以應(yīng)用于高通量和大規(guī)模測(cè)序中。
但隨著ONT的平臺(tái)變得更加成熟,且在基因組組裝和分析領(lǐng)域小試牛刀后,該系統(tǒng)的早期采用者表示,可以利用其獨(dú)特的設(shè)計(jì)來(lái)映射未知的染色體地形,同時(shí)也能在轉(zhuǎn)錄組和表觀基因組學(xué)等領(lǐng)域獲得前所未有的洞察力。Loose認(rèn)為,人們還沒(méi)有真正發(fā)揮這項(xiàng)技術(shù)的潛力。
誤差修正
最初,納米孔測(cè)序最引人注目的方面是有效。ONT在2012年的AGBT會(huì)議上成為焦點(diǎn),當(dāng)時(shí)首席技術(shù)官Clive Brown介紹了MinION,一個(gè)拇指驅(qū)動(dòng)大小的小部件,售價(jià)不到1000美元,可以生成150兆字節(jié)的DNA序列。這種微型設(shè)備不僅與現(xiàn)有的臺(tái)式儀器相去甚遠(yuǎn),而且其潛在的技術(shù)似乎也接近于科幻小說(shuō)。每個(gè)MinION單元含有數(shù)千個(gè)嵌在膜上的蛋白孔,DNA鏈被捕獲并穿過(guò)孔洞,儀器通過(guò)檢測(cè)不同的核苷酸組合在通過(guò)孔洞時(shí)產(chǎn)生的電流變化來(lái)解碼序列。
加文醫(yī)學(xué)研究所(Garvan Institute of Medical Research)的Martin Smith(左)與團(tuán)隊(duì)成員James Ferguson(中)和Hasindu Gamaarachchi(右)。
澳大利亞加文醫(yī)學(xué)研究所(Garvan Institute of Medical Research)基因組技術(shù)小組負(fù)責(zé)人Martin Smith表示,他都被這臺(tái)迷你測(cè)序儀震驚了。他原以為這只是個(gè)白日夢(mèng)。Smith是通過(guò)ONT的MinION Access Program(MAP)獲得第一代儀器的一小群人之一。在這些早期用戶中,最初的反應(yīng)通常是喜出望外的,但由于清楚地認(rèn)識(shí)到系統(tǒng)的局限性,他們的反應(yīng)相對(duì)緩和。Loose永遠(yuǎn)不會(huì)忘記他們第一次運(yùn)行MinION,并得到一個(gè)讀數(shù)。他們一直希望找到一臺(tái)這樣的儀器。但MinION的性能不夠穩(wěn)定,前后讀數(shù)不一致的情況也很頻繁。據(jù)安特衛(wèi)普大學(xué)(University of Antwerp)的生物信息學(xué)家Wouter De Coster回憶,他們每個(gè)人都花了一整天在文庫(kù)的準(zhǔn)備工作和測(cè)序上,但MinION的讀取錯(cuò)誤率高達(dá)30-40%。他還指出,運(yùn)行結(jié)果往往是讀對(duì)或缺失,而且缺失的時(shí)候甚至比讀對(duì)的時(shí)候多。
在接下來(lái)的幾年里,通過(guò)對(duì)孔隙和流動(dòng)池化學(xué)進(jìn)行了多項(xiàng)改進(jìn),該技術(shù)的性能有了很大的提高。其中一個(gè)最大的飛躍發(fā)生在2016年,當(dāng)時(shí)ONT用一個(gè)較新的R9.4孔取代了之前更易出錯(cuò)的R7.3孔。R9.4是由大腸桿菌蛋白CsgG改造而來(lái)的。前烏得勒支大學(xué)(Universitair Medisch Centrum Utrecht)遺傳學(xué)家,現(xiàn)任生物技術(shù)初創(chuàng)公司Cyclomics的首席科學(xué)官Wigard Kloosterman指出,當(dāng)時(shí),他們?cè)跍y(cè)序吞吐量方面取得了十倍的進(jìn)步,準(zhǔn)確率也有所提高,錯(cuò)誤率約為11%。今年早些時(shí)候,該公司宣布推出R10,聲稱這是一種全新的孔隙結(jié)構(gòu)。早期數(shù)據(jù)表明,R10可能有助于克服納米孔測(cè)序中最持久的問(wèn)題之一—— “均聚物”序列包含特定核苷酸的連續(xù)重復(fù),會(huì)產(chǎn)生難以辨認(rèn)的模糊信號(hào)。
諾丁漢大學(xué)(University of Nottingham)的Matthew Loose。
法國(guó)原子能和替代能源委員會(huì)(French Commission for Atomic Energy and Alternative Energies)Genoscope實(shí)驗(yàn)室的Jean-Marc Aury。
Jean-Marc Aury在法國(guó)原子能和替代能源委員會(huì)基因組研究所(Genoscope)領(lǐng)導(dǎo)著一個(gè)生物信息學(xué)家團(tuán)隊(duì),他是R10的早期使用者之一,并指出他的團(tuán)隊(duì)已經(jīng)觀察到了一些缺陷。Aury指出,個(gè)別讀取的錯(cuò)誤率高于R9.4,但錯(cuò)誤率更隨機(jī),因此總的來(lái)說(shuō)準(zhǔn)確率更高。科學(xué)家認(rèn)為,把這兩種孔的差異結(jié)合到儀器上,可能是互補(bǔ)的。安大略省癌癥研究所(Ontario Institute for Cancer Research)的Jared Simpon目前正在探索這種可能性。他接受了ONT的研究資助。他表示,這兩種孔會(huì)給你不同的信號(hào),這樣你就可以用一個(gè)孔接收另一個(gè)孔接收不到的信號(hào)。兩者的優(yōu)勢(shì)可以相互加強(qiáng)。
曲折前行
在這些硬件進(jìn)步的同時(shí),ONT公司內(nèi)部和生信學(xué)家開(kāi)發(fā)的計(jì)算軟件也在不斷進(jìn)步。早期采用者面臨的最大挑戰(zhàn)之一是納米孔的數(shù)據(jù)看起來(lái)與市場(chǎng)領(lǐng)導(dǎo)者Illumina公司生產(chǎn)的數(shù)據(jù)非常不同,需要一個(gè)同樣獨(dú)特的工具箱。MinION運(yùn)行的原始輸出包括電流的波動(dòng),這些波動(dòng)隨后被轉(zhuǎn)換成“曲線”圖,然后可以通過(guò)專門(mén)的堿基調(diào)用軟件轉(zhuǎn)換成更熟悉的核苷酸序列串。
早期的堿基調(diào)用軟件相對(duì)容易出錯(cuò),但從2017年開(kāi)始,這些程序開(kāi)始使用神經(jīng)網(wǎng)絡(luò)算法,可以將讀取級(jí)別的準(zhǔn)確率提高到80%以上。ONT的基礎(chǔ)調(diào)用軟件的后續(xù)迭代,如剪貼算法,也有助于減輕均聚物的不必要影響。據(jù)Jain解釋,如果你有相同的堿基重復(fù)多次,那么你就不會(huì)看到離子電流的變化——你只會(huì)得到一條平線。這個(gè)算法能識(shí)別重復(fù)信號(hào)有多長(zhǎng),能大致知道處理這條鏈的速度。它可以利用速度和時(shí)間來(lái)估計(jì)堿基的數(shù)量。盡管研究結(jié)果并不完美,但它們消除了許多意外的、由錯(cuò)誤解讀的均聚物引起的‘缺失’。
Scrappie通過(guò)調(diào)用原始數(shù)據(jù)而不是處理過(guò)的曲線來(lái)做分析,其它軟件工具也利用這些未經(jīng)處理的測(cè)量數(shù)據(jù)來(lái)進(jìn)一步提高測(cè)序精度。例如,Simpson在2015年開(kāi)發(fā)了一種名為Nanopolish的工具,幫助完成了第一個(gè)完整的細(xì)菌基因組的納米組裝。該軟件使用原始的電流變化數(shù)據(jù)來(lái)糾正多次讀取中的重疊區(qū)域的錯(cuò)誤。Simpson說(shuō):“我們真正要做的是深入了解影響信號(hào)的因素,并建立模型,最大限度地利用測(cè)序器。”
Nanopolish仍然被廣泛使用,盡管它的運(yùn)行需要大量的計(jì)算,Simpson指出ONT已經(jīng)發(fā)布了一種名為Medaka的替代工具,可以用更少的時(shí)間和更少的精力實(shí)現(xiàn)更高的精度。據(jù)他介紹,你無(wú)需一個(gè)高性能的計(jì)算系統(tǒng)——你只需要一臺(tái)筆記本電腦就足夠了。更普遍地說(shuō),這個(gè)一致性分析步驟為克服讀取級(jí)別的錯(cuò)誤提供了一個(gè)關(guān)鍵的機(jī)會(huì)。軟件的進(jìn)展推動(dòng)納米孔測(cè)序的準(zhǔn)確度超過(guò)99%,為其與Illumina等巨頭進(jìn)行競(jìng)爭(zhēng)奠定了基礎(chǔ)。Loose指出,測(cè)序領(lǐng)域?qū)υ奸喿x準(zhǔn)確性始終有一種執(zhí)著,不過(guò)這并不總是一個(gè)重要的問(wèn)題,更重要的是能否達(dá)成一致。
更大更好
即使在這種技術(shù)發(fā)展的背景下,直到幾年前納米孔測(cè)序仍然被廣泛認(rèn)為是一種擁有商機(jī)的工具。事實(shí)證明,這種超便攜的“小分隊(duì)”是一種強(qiáng)大的野外應(yīng)用工具,比如追蹤寨卡病毒的爆發(fā),以及在遙遠(yuǎn)的南極洲測(cè)量環(huán)境樣本,但臨床研究和重新組裝基因組領(lǐng)域的主流技術(shù)還是Illumina和PacBio技術(shù)。
2017年4月,人們的觀念發(fā)生了重大轉(zhuǎn)變。當(dāng)時(shí)由Loose和Kloosterman領(lǐng)導(dǎo)的兩個(gè)研究小組獨(dú)立地證明納米孔也可以分析完整的人類基因組。然而,這并非易事,它只是一個(gè)概念的證明,而不是現(xiàn)有全基因組測(cè)序策略的可行替代品。Loose那項(xiàng)研究的第一作者Jain指出,他們的組裝大約花費(fèi)了15萬(wàn)個(gè)CPU小時(shí),如果他們?cè)趤嗰R遜的網(wǎng)絡(luò)服務(wù)上運(yùn)行它,那將花費(fèi)他們大約3萬(wàn)美元。雖然在三年之后,MinION的產(chǎn)量和可靠性都有了很大的提高,但這些微型設(shè)備與如此規(guī)模的項(xiàng)目并不匹配。例如,Kloosterman估計(jì)他的團(tuán)隊(duì)花了半年時(shí)間利用122個(gè)流動(dòng)池進(jìn)行測(cè)序,以實(shí)現(xiàn)16個(gè)基因組的覆蓋。
此后,測(cè)序規(guī)模擴(kuò)大變得更加簡(jiǎn)單。經(jīng)過(guò)兩年的早期檢測(cè),ONT公司發(fā)布了PromethION,一種用于高通量測(cè)序的儀器。Loose表示,他們能夠在每個(gè)流動(dòng)池上檢測(cè)6個(gè)人類基因組,他們?cè)?天的測(cè)序中完成了40到85次的人類基因組檢測(cè)。早期用戶對(duì)此印象深刻,但需要注意的是,實(shí)驗(yàn)結(jié)果在很大程度上取決于樣品制備的質(zhì)量。De Coster指出,有了一個(gè)好的樣本和一個(gè)好的流動(dòng)池,每次運(yùn)行100千兆是絕對(duì)可行的。但如果你的DNA質(zhì)量很差,每次就只能讀取30千兆或更少。該儀器目前的版本可以在一次實(shí)驗(yàn)中運(yùn)行24或48個(gè)流動(dòng)池,用戶可以在一個(gè)滿載的儀器上收集幾個(gè)兆兆的堿基數(shù)據(jù)。
這使得PromethION在吞吐量方面與其它領(lǐng)先的測(cè)序平臺(tái)處于同一水平,盡管競(jìng)爭(zhēng)仍然很激烈。例如,市場(chǎng)領(lǐng)導(dǎo)者Illumina報(bào)告,其頂級(jí)的NovaSeq 6000儀器可以在兩天的內(nèi)利用兩個(gè)流動(dòng)池生成多達(dá)6個(gè)兆兆堿基的序列數(shù)據(jù),其輸出包括100-150個(gè)堿基的短配對(duì)讀取。在長(zhǎng)讀方面,PacBio表示,其Sequel II儀器可以在30小時(shí)內(nèi)為每個(gè)流動(dòng)池生成320千兆堿基的讀取數(shù)據(jù),輸出長(zhǎng)達(dá)萬(wàn)到十萬(wàn)的堿基的配對(duì)讀取,平均每次讀取的準(zhǔn)確率超過(guò)99%。
納米孔用戶還受益于為PacBio儀器開(kāi)發(fā)的高效基因組組裝軟件的激增,這類軟件已成為重新組裝基因組的熱門(mén)選擇。許多最流行的工具,如MiniMap2和Canu,都是與平臺(tái)相互獨(dú)立的,并且可以根據(jù)不同系統(tǒng)生成的數(shù)據(jù)的特性進(jìn)行配置,從而提供最佳的結(jié)果。約翰·霍普金斯大學(xué)(Johns Hopkins University)專攻測(cè)序技術(shù)的工程師Winston Timp想說(shuō)的是,長(zhǎng)讀長(zhǎng)工具箱現(xiàn)在已經(jīng)相當(dāng)統(tǒng)一了。
原則上,納米孔測(cè)序中讀取長(zhǎng)度只受能完整傳輸?shù)娇障吨械腄NA片段大小的限制。這使得納米孔技術(shù)在構(gòu)建超長(zhǎng)序列裝配方面具有主要優(yōu)勢(shì),而不存在與短讀拼接結(jié)構(gòu)相關(guān)的問(wèn)題。Aury指出,他們已經(jīng)能夠?qū)φ麄€(gè)酵母菌染色體進(jìn)行測(cè)序——大約有200到300千位堿基。Jain指出,事實(shí)證明,這種規(guī)模的讀取在提高人類基因組測(cè)序的質(zhì)量方面是非常寶貴的。如今,用戶之間展開(kāi)了友好的競(jìng)爭(zhēng),看誰(shuí)能完成最長(zhǎng)的單次讀取。Smith的實(shí)驗(yàn)室在2017年底第一個(gè)突破1兆字節(jié)大關(guān),Loose和他在伯明翰大學(xué)(University of Birmingham)的合作伙伴Nicholas Loman已經(jīng)收到了來(lái)自維康信托(Wellcome Trust)的資助,用于建立一個(gè)“長(zhǎng)閱讀俱樂(lè)部”,以開(kāi)發(fā)突破讀長(zhǎng)限制的策略。
如此大規(guī)模的測(cè)序絕非易事。目前市面上有售分離大型DNA片段的試劑盒——例如,Smith等人使用了BioNano Genomics為基因組圖譜平臺(tái)開(kāi)發(fā)的一種技術(shù),該技術(shù)的目的是在相當(dāng)遠(yuǎn)的距離內(nèi)精確定位序列讀取的相對(duì)位置。然而,這些長(zhǎng)鏈的行為不同于短鏈。Smith指出,長(zhǎng)鏈DNA非常粘稠,就像凝膠塞一樣——讓其進(jìn)入流動(dòng)池可能是最棘手的部分。
納米孔測(cè)序也非常需要樣本,而且對(duì)樣本的準(zhǔn)備要求非常嚴(yán)。在讀取長(zhǎng)鏈DNA時(shí),這個(gè)問(wèn)題更為突出。但結(jié)果仍然令人震驚——在2018年末,Loose描述了一個(gè)2.3兆字節(jié)的序列,這個(gè)序列太長(zhǎng)了,以至于堿基調(diào)用軟件錯(cuò)誤地把它分成11個(gè)讀取,用戶一直在爭(zhēng)奪新的記錄?!盠oose表示,他們?cè)赥witter上看到了令人印象深刻的結(jié)果。
填補(bǔ)空白
納米孔特別適合研究復(fù)雜基因組的結(jié)構(gòu)變化。Kloosterman指出,人類基因組中的這些逆轉(zhuǎn)錄轉(zhuǎn)座子元素就是一個(gè)很好的例子。這些轉(zhuǎn)座子元素大約是6到8千堿基,如果讀長(zhǎng)達(dá)到20千堿基,你可以從頭到尾看到它們。用250個(gè)堿基的讀長(zhǎng)幾乎不可能重建這些數(shù)據(jù),而頂尖的堿基精度對(duì)這類映射來(lái)說(shuō)不是必不可少的。
De Coster等人一直在使用PromethION系統(tǒng)地識(shí)別人類基因組中重復(fù)的元素和其它結(jié)構(gòu)變異的來(lái)源,聚焦檢測(cè)神經(jīng)疾病的危險(xiǎn)因素。De Coster表示,他們已經(jīng)看到,他們可以預(yù)期在人類基因組中大約有2.7萬(wàn)個(gè)大于50個(gè)核苷酸的結(jié)構(gòu)變異,它們對(duì)人類之間的變異的貢獻(xiàn)超過(guò)單核苷酸多態(tài)性。在Kloosterman的經(jīng)驗(yàn)中,納米孔可以對(duì)大規(guī)模的序列重排類突變達(dá)到近乎完美的敏感性,例如癌癥基因組中常見(jiàn)的染色體異常,但對(duì)于小的錯(cuò)誤,包括插入或刪除錯(cuò)誤不敏感,在檢測(cè)單核苷酸突變上也不理想。
因此,大多數(shù)對(duì)重建全基因組感興趣的研究人員將納米孔與其它技術(shù)相結(jié)合,從而進(jìn)一步提高裝配的連續(xù)性和準(zhǔn)確性。例如,Aury的實(shí)驗(yàn)室發(fā)現(xiàn)納米孔非常適合研究復(fù)雜的、通常高度多倍體的植物基因組,但它不能獨(dú)自完成全部工作。Aury指出,單是得到染色體規(guī)模的框架仍然是不夠的,所以他們一直在使用BioNano光學(xué)映射,你還需要Illumina的數(shù)據(jù)來(lái)完善一致性數(shù)據(jù)。
T2T團(tuán)隊(duì)也采用了多管齊下的方法。在去年的初步試點(diǎn)工作中,Miga等人使用了一組200千堿基的讀數(shù),為人類Y染色體上從未繪制過(guò)的著絲粒構(gòu)建了一個(gè)序列支架。該論文的第一作者Jain指出,他們能夠組裝出一個(gè)315千堿基的著絲粒。值得注意的是,當(dāng)他們開(kāi)始構(gòu)建時(shí),并不知道它的長(zhǎng)度。但是一旦拿到納米孔測(cè)序的讀數(shù),他們就利用Illumina公司的短讀數(shù)據(jù)來(lái)完善最終的組裝。未來(lái),T2T計(jì)劃把PromethION、PacBio和Illumina的數(shù)據(jù),以及BioNano等遠(yuǎn)程測(cè)繪技術(shù)的數(shù)據(jù)結(jié)合起來(lái),正如他們?cè)谧罱瓿傻腦染色體重建中所做的一樣。
這種全面的基因組檢測(cè)在常規(guī)臨床應(yīng)用中并不實(shí)用,但一些研究小組正在探索利用納米孔技術(shù)對(duì)單核苷酸突變進(jìn)行高精度的靶向測(cè)序方法。Kloosterman與長(zhǎng)期合作伙伴Jeroen de Ridder共同創(chuàng)立的Cyclomics公司開(kāi)發(fā)了一種策略,可以捕獲并循環(huán)短DNA片段,然后反復(fù)進(jìn)行酶復(fù)制,產(chǎn)生長(zhǎng)串重復(fù)序列。然后可以對(duì)這些序列進(jìn)行排序,以獲得高度準(zhǔn)確的測(cè)序結(jié)果。Kloosterman希望通過(guò)在MinION上實(shí)現(xiàn)這一功能,能夠提供一種低成本、便攜的腫瘤DNA突變“液體活檢”技術(shù)。其它有針對(duì)性的測(cè)序策略有可能直接應(yīng)用于原始DNA樣本。例如,Timp等人使用基因組編輯酶Cas9在感興趣的基因組位點(diǎn)上實(shí)現(xiàn)選擇性切割。然后,這些分裂的末端可以被“標(biāo)記”為優(yōu)先測(cè)序,這使得被切割部分比未切割部分富集幾百倍。
Cyclomics創(chuàng)始人Jeroen de Ridder、Wigard Kloosterman和 Alessio Marcozzi。
打開(kāi)一扇新的大門(mén)
隨著納米孔在DNA序列分析方面越來(lái)越有競(jìng)爭(zhēng)力,研究人員也發(fā)現(xiàn),這些微小的孔同樣適合研究其它各種生物分子。Timp表示,納米孔并不在乎你往里面放了什么。例如,他和Simpson使用納米孔來(lái)繪制與DNA甲基化相關(guān)的表觀遺傳標(biāo)記。在MinION的早期,修改過(guò)的DNA堿基,如5-甲基胞嘧啶(5-mC),會(huì)對(duì)當(dāng)前的讀數(shù)有混淆作用,會(huì)迷惑堿基調(diào)用軟件。但是,如果軟件能夠識(shí)別出修改產(chǎn)生的模式,并將其與正常堿基區(qū)別開(kāi)來(lái),那么這種噪音就可以被消除。Simpson和Timp合成了各種各樣的DNA序列,并在不同的位置和序列上下文中引入5-mC,然后他們訓(xùn)練納米孔,使其能夠一致地辨別這些相同的模式。
他們將繼續(xù)合作鑒定其它自然發(fā)生的DNA修飾,最終得到的數(shù)據(jù)將被整合到未來(lái)的堿基調(diào)用軟件中,用于常規(guī)測(cè)序?qū)嶒?yàn)。然而,納米孔測(cè)序的這一特點(diǎn)也可以用來(lái)研究染色體生物學(xué)的其它特征。例如,Timp的團(tuán)隊(duì)使用甲基轉(zhuǎn)移酶對(duì)DNA樣本進(jìn)行處理,甲基轉(zhuǎn)移酶優(yōu)先在相對(duì)開(kāi)放的色譜層上標(biāo)記序列(通常與主動(dòng)轉(zhuǎn)錄的基因相關(guān)),然后通過(guò)納米孔測(cè)序檢測(cè)這些修飾模式。Timp表示,他們發(fā)現(xiàn)他們可以將染色質(zhì)狀態(tài)和單個(gè)分子的甲基化相結(jié)合,從而識(shí)別具有等位基因特異性的印跡基因。
人們還可以通過(guò)相同的納米孔將RNA鏈串聯(lián)起來(lái),這樣就可以直接分析完整的轉(zhuǎn)錄本,而不需要酶轉(zhuǎn)化為cDNA,這一過(guò)程可能會(huì)給轉(zhuǎn)錄組數(shù)據(jù)帶來(lái)偏差。最近合作完成了一個(gè)人類細(xì)胞株轉(zhuǎn)錄組mRNA的納米孔測(cè)序的Jain指出,你得到了一個(gè)自然的全長(zhǎng)RNA的測(cè)量,這意味著你得到了所有的剪接連接。他們讀取了1000萬(wàn)個(gè)RNA,最長(zhǎng)的是2.2萬(wàn)個(gè)堿基,跨度116個(gè)外顯子。領(lǐng)導(dǎo)這項(xiàng)研究的Timp指出,這些序列還包括全長(zhǎng)的、在mRNA穩(wěn)定性和翻譯中具有重要的調(diào)控作用的poly(A)尾巴,而在基于cDNA的轉(zhuǎn)錄組學(xué)方法中通常會(huì)缺失poly(A)結(jié)構(gòu)??紤]到均聚物存在的問(wèn)題,納米空測(cè)序技術(shù)實(shí)現(xiàn)精確的定量可能是困難的,但是通過(guò)孔隙跟蹤傳輸時(shí)間的堿基調(diào)用軟件可以部分解決這個(gè)問(wèn)題。
與基于cDNA的短讀RNA測(cè)序方法相比,轉(zhuǎn)錄組規(guī)模的納米孔數(shù)據(jù)的生成需要更多的人力。Aury指出,納米孔R(shí)NA測(cè)序?qū)悠菲焚|(zhì)要求非常高,所以你需要大量的RNA,而且產(chǎn)量仍然非常低。與Illumina或PacBio獲得的cDNA序列相比,納米孔測(cè)序?qū)蝹€(gè)RNA讀取的錯(cuò)誤率也更高。此外,就像DNA一樣,化學(xué)修飾會(huì)迷惑堿基調(diào)用軟件,從而進(jìn)一步增加錯(cuò)誤率。Smith表示,對(duì)于DNA,只有十幾種左右的修飾。但是RNA——尤其是核糖體RNA或tRNA——已知有數(shù)百種修飾。
但是,如果能夠訓(xùn)練基本調(diào)用軟件識(shí)別和解釋這些修飾,那么后一個(gè)問(wèn)題也是一個(gè)機(jī)會(huì)。巴塞羅那基因組調(diào)控中心(Center for Genomic Regulation in Barcelona)的Eva Maria Novoa等人最近發(fā)表了一篇預(yù)印文章,證明了最常見(jiàn)的mRNA修飾之一——N6-甲基腺苷可被納米孔測(cè)序識(shí)別。參與這項(xiàng)研究的Smith指出,他們觀察了來(lái)自這些修飾的堿基調(diào)用錯(cuò)誤,發(fā)現(xiàn)錯(cuò)誤率很低,但仍然存在問(wèn)題。研究人員正試圖訓(xùn)練出一種不僅能識(shí)別單個(gè)修飾,還能識(shí)別大量堿基多種組合帶有的大量修飾的軟件。這會(huì)進(jìn)一步增加挑戰(zhàn)的難度。在Jain的團(tuán)隊(duì)中,他們稱之為‘十年長(zhǎng)征’。
盡管ONT在納米孔測(cè)序方面已經(jīng)取得了令人敬畏的進(jìn)展,其他公司和學(xué)術(shù)研究人員也在探索這項(xiàng)技術(shù)的潛力。例如,Roche一直在不動(dòng)聲息地開(kāi)發(fā)一種基于蛋白質(zhì)納米孔的技術(shù)。該技術(shù)作為一種潛在的臨床診斷工具,是從初創(chuàng)公司Genia處獲得的。Ontera正在開(kāi)發(fā)一種手持設(shè)備,使用固態(tài)納米孔,可以潛在地識(shí)別給定樣本中存在的核酸、蛋白質(zhì),甚至病原體。在華盛頓大學(xué)(University of Washington),Jens Gundlach的團(tuán)隊(duì)一直在使用從分枝桿菌中提取的納米孔蛋白來(lái)研究核酸和各種“運(yùn)動(dòng)蛋白”之間的動(dòng)態(tài)相互作用,比如解旋DNA的解旋酶。
對(duì)于幫助納米孔測(cè)序找到立足之地的早期用戶來(lái)說(shuō),這些各種各樣的進(jìn)展正在給這個(gè)領(lǐng)域注入新的活力,并激發(fā)了人們對(duì)納米孔下一個(gè)分析對(duì)象的想象。蛋白質(zhì)測(cè)序是Timp的首要目標(biāo),他指出,一些學(xué)術(shù)研究已經(jīng)開(kāi)始為這一方向掃清道路。Timp表示,他并不是說(shuō)氨基酸測(cè)序很容易,但是想想質(zhì)譜分析是多么痛苦。如果納米孔能做用于分析蛋白質(zhì),那就真是太棒啦!
原文檢索:
Michael Eisenstein. (2019) Playing a long game. Nature Methods,16:683-686.
張潔/編譯
聲明:本網(wǎng)所有文章(包括圖片和音視頻資料)系出于傳遞更多信息之目的,且明確注明來(lái)源和作者,不希望被轉(zhuǎn)載的媒體或個(gè)人可與我們聯(lián)系,我們將立即進(jìn)行刪除處理。所有文章僅代表作者觀點(diǎn),不代表本站立場(chǎng)。
這個(gè)厲害了