微生物組學(xué)研究手段概覽——擴增子測序
林二狗?宇宙實驗媛?2018-10-23
微生物組學(xué)不依賴于微生物的分離培養(yǎng),克服了傳統(tǒng)的純培養(yǎng)方法的技術(shù)限制,為研究和開發(fā)利用不可培養(yǎng)的微生物(占微生物種類99%以上)提供了一種新的途徑和良好的策略。另外,通過微生物組學(xué)可以得到環(huán)境中豐度較低的,甚至是痕量微生物的信息。同時結(jié)合宏觀生態(tài)的研究理念,可以解釋環(huán)境中微生物菌群的多樣性、功能活性等宏觀特征,相比于對于單一種屬微生物的研究,能更準(zhǔn)確地反應(yīng)出微生物生存的真實狀態(tài)。
本次系列專題旨在概述微生物組學(xué)的主要研究手段,包括擴增子測序、宏基因組、宏轉(zhuǎn)錄組、宏蛋白質(zhì)組、宏代謝組、功能組和培養(yǎng)組,每篇文章除了基礎(chǔ)的介紹內(nèi)容,還結(jié)合了剛剛發(fā)表的相應(yīng)文章進行實例解析,敬請關(guān)注。
微生物擴增子測序:樣本中微生物種類及構(gòu)成、不同樣本間微生物組成差異
微生物擴增子測序主要通過直接擴增環(huán)境總?DNA 的特定區(qū)域,解釋某一特定樣本環(huán)境微生物分布、豐度變化和群落組成情況。隨著高通量測序技術(shù)的不斷發(fā)展,微生物擴增子測序技術(shù)已成為環(huán)境微生物群落比較和差異分析的主流研究手段之一。
根據(jù)不同的研究需求,一般選擇擴增16S高變區(qū)來區(qū)分環(huán)境樣品的細菌和古菌群落,ITS區(qū)域擴增用以評估真菌群落,原生動物等為主的真核微生物群落研究可通過18S高變區(qū)測序來實現(xiàn)。此外,也可通過特定的功能基因測序等來揭示特定功能相關(guān)的環(huán)境微生物群落分布。由于在下主攻細菌和古細菌,所以下面多以此為例。
首先我們來看看為什么選擇擴增16S片段來表征菌群。細菌核糖體RNA(rRNA)有三種類型:5S rRNA(120bp)、16S rRNA(約1540bp)和23S rRNA(約2900bp)。其中,5S rRNA基因序列較短,包含的遺傳信息較少,不適于細菌種屬的分析鑒定;23S rRNA基因的序列太長,且其堿基的突變率較高,不適于鑒定親緣關(guān)系較遠的細菌種類;而16S rRNA普遍存在于原核細胞中,種屬內(nèi)具有高度的保守性,且含量較高、拷貝數(shù)較多,遺傳信息量適中,既能體現(xiàn)不同菌屬之間的差異,又能利用測序技術(shù)較容易地得到其序列,非常適合作為細菌多樣性分析的標(biāo)準(zhǔn)。
圖1. 16S rRNA基因區(qū)域:包含9個高變區(qū)(V1-V9)和10個保守區(qū)。通過對某一段高變區(qū)序列或幾個高變區(qū)的組合(比如,V4區(qū)或V3+V4區(qū))進行PCR擴增后進行測序。
圖2. 16S rRNA基因不同區(qū)段和組合對菌群分類的解釋效果(doi:10.1038/nrmicro3330)
這里介紹一個概念——OTU。OTU(operational taxonomic units),即操作分類單元,通過一定的距離度量方法計算兩兩不同序列之間的距離度量或相似性,繼而設(shè)置特定的分類閾值,獲得同一閾值下的距離矩陣,進行聚類操作,形成不同的分類單元。(隱約聽到有人讓我說人話……)對于樣本的16S序列進行測序,往往會得到成千上萬條reads,如果直接對每條序列進行物種注釋的話,工作量大、耗時長。而且16S序列的擴增、測序等過程中出現(xiàn)的隨機錯誤會降低結(jié)果的準(zhǔn)確性。所以,在16S分析中引入OTU,首先對相似性(閾值一般為97%)序列進行聚類,分成數(shù)量較少的分類單元,基于分類單元進行物種注釋。對應(yīng)關(guān)系大概是醬嬸兒的:
但是需要說明的是:(1)因為注釋基于的是擴增子序列數(shù)據(jù)庫(如RDP、Greengenes、SILVA等),所以有很多未知的微生物種類不能被鑒定出來,尤其是土壤等環(huán)境樣本中,這些在文章中都被歸類為“unclassified”;(2)目前微生物擴增子測序普遍使用二代測序儀(三代測序測16S全長了解一下),因為受到讀長限制,注釋信息往往不能精確到種水平。
表1. 測序公司提供的基于擴增子測序數(shù)據(jù)的標(biāo)準(zhǔn)分析內(nèi)容
以Ferrocino和Ponzo等人2018年8月發(fā)表于Scientific Reports的文章為例。研究人員招募了41例妊娠糖尿病患者,分別于孕中期(24-28周胎齡)和孕晚期(38周胎齡)收集糞便,提取腸道微生物組,進行16S擴增子測序,解析這些患者在懷孕過程中的腸道菌群變化。
(1)α多樣性分析:
α多樣性主要關(guān)注局域均勻生境下的物種數(shù)目,因此也被稱為生境內(nèi)的多樣性(within-habitat diversity)
shannon:菌群多樣性指數(shù)
H=-∑(Pi)(㏑Pi),Pi=樣品中屬于第i種的個體的比例,如樣品總個體數(shù)為N,第i種個體數(shù)為ni,則Pi=ni/N。
各種之間,個體分配越均勻,H值就越大。換言之,如果每一個體都屬于不同的種,多樣性指數(shù)就最大;如果每一個體都屬于同一種,則其多樣性指數(shù)就最小。
observed_species:菌種豐富度指標(biāo),觀測到的OTU數(shù)
chao1:菌種豐富度指數(shù),估計群落中的OTU數(shù)目
chao1是度量物種豐富度的指標(biāo),它和豐度、均勻度無關(guān),但是它對稀有的物種很敏感。
Schao1=Sobs+n1(n1-1)/2(n2+1),其中Schao1為估計的OTU數(shù),Sobs為觀測到的OTU數(shù),n1為只有一條序列的OTU數(shù)目,n2為只有兩條序列的OTU數(shù)目。
圖3. α多樣性結(jié)果展示:綠色(Enrolment)代表24-28周胎齡樣本,藍色(Study end)代表38周胎齡樣本(下同)。由圖中,可以看出相比于Enrolment組,Study end組的α多樣性有所增加。
(2)β多樣性分析:
β多樣性指沿環(huán)境梯度不同生境間群落的物種組成的相異性或物種沿環(huán)境梯度的更替速率,也被稱為生境間的多樣性(between-habitat diversity)。
β多樣性分析常用的方式為PCA(Principal Components Analysis)和PcoA(Principal Co-ordinates Analysis),二者都屬于排序分析(Ordination analysis)。排序(ordination)的過程就是在一個可視化的低維空間或平面重新排列這些樣本,使得樣本之間的距離最大程度地反映出平面散點圖內(nèi)樣本之間的關(guān)系信息(反映樣本間菌群結(jié)構(gòu)的相似性和差異性)。每一個點代表一個樣本,相同顏色的點來自同一個分組。通過比較樣本點的距離來衡量樣本/組間的差異程度,樣本/組間的距離越近表示兩樣本/組的組成相似性越高,差異越小。
PCA即主成分分析,也稱主分量分析或主成分回歸分析法。首先利用線性變換,將數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中;然后再利用降維的思想,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)(稱為第一主成分)上,第二大方差在第二個坐標(biāo)(第二主成分)上。這種降維的思想首先減少數(shù)據(jù)集的維數(shù),同時還保持數(shù)據(jù)集的對方差貢獻最大的特征,最終使數(shù)據(jù)直觀呈現(xiàn)在二維坐標(biāo)系。
PCoA即主坐標(biāo)分析,它與PCA類似,通過一系列的特征值和特征向量進行排序后,選擇主要排在前幾位的特征值,找到距離矩陣中最主要的坐標(biāo),結(jié)果是數(shù)據(jù)矩陣的一個旋轉(zhuǎn),它沒有改變樣本點之間的相互位置關(guān)系,只是改變了坐標(biāo)系統(tǒng)。
兩者的在于PCA分析是基于原始的物種組成矩陣所做的排序分析,而PCoA分析則是基于由物種組成計算得到的距離矩陣得出的。當(dāng)樣本數(shù)量比較多而物種的數(shù)量比較少的時候,推薦選擇PCA;反之,樣本數(shù)量少而物種數(shù)量多的時候,選擇PCoA更好。當(dāng)然,很多時候我們會PCA和PCoA都做,根據(jù)結(jié)果再來選擇。
圖4. 主成分分析結(jié)果展示。如圖所示,x軸標(biāo)簽PCo 1 (22.9%)代表能最大區(qū)分所有樣品的第一主坐標(biāo)軸,可以解釋樣品中所有差異的22.9%;y軸標(biāo)簽PCo 2 (23.5%)代表能最大區(qū)分所有樣品的第二主坐標(biāo)軸,可以解釋樣品中所有差異的23.5%。這兩軸形成的第一個平面展示了樣品間近50%以上的差異,不同顏色表示兩組間可以很好的區(qū)分開,即妊娠糖尿病患者的腸道微生物組成與其所處的不同孕期具有顯著相關(guān)性。
(3)預(yù)測宏基因組的功能基因組成:
PICRUSt(Phylogenetic Investigationof Communities by Reconstruction of Unobserved States)是基于16S rRNA基因序列預(yù)測微生物群落功能的工具。其原理是首先對基因內(nèi)容進行預(yù)測(Gene Content Prediction;對Greengenes數(shù)據(jù)庫中的“closed reference”序列劃分OTU后構(gòu)建進化樹,因為基因內(nèi)容在進化距離相近的物種間相對保守,所以可以通過Ancestral state reconstruction算法并結(jié)合IMG/M數(shù)據(jù)庫預(yù)測出樹中未進行全基因組測序的OTU的基因組信息)。然后進行宏基因組預(yù)測(Metagenome Prediction;a. 因為細菌中可能含有1-15個16SrRNA基因拷貝,按照預(yù)測其他基因方式預(yù)測16SrRNA基因拷貝數(shù);b. 將每個OTU對應(yīng)序列數(shù)除以其16SrRNA基因拷貝數(shù)來進行標(biāo)準(zhǔn)化;c. 將標(biāo)準(zhǔn)化的數(shù)據(jù)乘以其各自對應(yīng)的基因組中基因數(shù)從而實現(xiàn)宏基因組預(yù)測的目的)。最后,獲得的預(yù)測結(jié)果可以通過KEGG Orthology或COGs等對基因家族進行分類。這樣就可以在不進行宏基因組測序(詳見后文)的情況下,對微生物組的功能進行一定程度地表征。
圖5. PICRUSt工作流程(doi: 10.1038/nbt.2676,下同)
圖6. 使用PICRUSt預(yù)測不同環(huán)境的微生物組的準(zhǔn)確性:人體>土壤>其他哺乳動物>高鹽
圖7. 隨測序深度增加PICRUSt預(yù)測結(jié)果與宏基因組測序結(jié)果的準(zhǔn)確度比較。圖中所示使用PICRUSt,即使低16S測序量(105條序列)也可獲得準(zhǔn)確度較高的功能預(yù)測結(jié)果。
為什么說是“一定程度”呢?因為細菌間普遍存在水平轉(zhuǎn)移,即使16S序列相同,不同菌株所含有的功能基因也可能有所差異。所以,PICRUSt預(yù)測的結(jié)果僅供描述。同時,如果在Greengenes數(shù)據(jù)庫中找不到所測序列的同源物種的參考序列,則該序列的功能基因?qū)o法被預(yù)測,而且PICRUSt只能對已知微生物基因的已知功能進行預(yù)測,故其并不能完全代替宏基因組研究。但是,宏基因組測序費用相對昂貴,在經(jīng)費有限的情況下,這種預(yù)測方式不失為一種替代的選擇。
圖8. 使用PICRUSt預(yù)測的Study end組菌群代謝通路與OTU相關(guān)性分析。由圖,糖酵解/糖異生、果糖/甘露糖代謝、半乳糖代謝、淀粉/蔗糖代謝等通路相對富集,脂肪酸代謝等通路則降低。同時,脂多糖(LPS)的生物合成通路與Sutterella和Bacteroides等菌屬顯示出正相關(guān)。
微生物組學(xué)研究手段概覽2——宏基因組和宏轉(zhuǎn)錄組
宏基因組
宏基因組測序是將環(huán)境總DNA提取出來,隨機打斷成300/500bp的小片段,然后在片段兩端加入通用引物進行PCR擴增測序,然后對測序數(shù)據(jù)進行質(zhì)控,再將高質(zhì)量序列拼接,根據(jù)數(shù)據(jù)庫參考信息,對基因序列進行預(yù)測和功能注釋,最終獲得重要的宏基因組信息,如序列組成(GC含量、基因組大小等)、物種組成、功能組成和群落特征等。
相比于16S擴增子測序,宏基因組測序能夠使物種鑒定深度達到“種”,而前者往往只能達到“屬”的級別。另外,基于16S擴增子測序的基因預(yù)測結(jié)果(預(yù)測方法請參見往期內(nèi)容“微生物組學(xué)研究手段概覽——擴增子測序”)是依據(jù)數(shù)據(jù)庫中的參考序列得到的,宏基因組測序則提供了菌群實際的基因信息。所以,如果不考慮經(jīng)費的限制,宏基因組測序是能夠更準(zhǔn)確地研究微生物組及其功能的方法。
圖1. 宏基因組學(xué)研究的生物信息工作內(nèi)容(doi: 10.1371/journal.pcbi.1002808)。
圖2. 宏基因組數(shù)據(jù)處理的基本流程和需用軟件(有具體操作需求的同學(xué)可以通過下面網(wǎng)址下載英文相關(guān)教程
https://github.com/TGAC/361Division/tree/master/Metagenomics%202015)
表1. 測序公司提供的基于宏基因組測序數(shù)據(jù)的標(biāo)準(zhǔn)分析內(nèi)容
目前很多研究都聚焦在人體腸道微生物組的宏基因組學(xué)研究,期望從中挖掘出多種疾病的因果關(guān)系。已經(jīng)采集到的樣本來自不同國家、遺傳背景、生活習(xí)慣、身體狀況的人群。同時,環(huán)境微生物的宏基因組學(xué)研究也在如火如荼地開展中。相比于宿主樣本,環(huán)境樣本(如水體、土壤等)中存在大量未知或不可培養(yǎng)的微生物,這些微生物有很多是尚未被鑒定或者深入研究的。宏基因組測序直接研究環(huán)境中的總DNA,為開發(fā)新的生物活性物質(zhì)、發(fā)現(xiàn)新的基因和物種、研究特定環(huán)境中微生物群落結(jié)構(gòu)與功能的關(guān)系(功能網(wǎng)絡(luò)與互作)、微生物對環(huán)境變化的響應(yīng)與反饋(比如,農(nóng)耕土壤質(zhì)量的惡化與恢復(fù))、微生物群落的演替與進化、微生物區(qū)域分布與生物地理學(xué)等開辟了一條新的途徑,為解釋和解決一些重大農(nóng)業(yè)和環(huán)境問題提供重要依據(jù)。
圖3. NCBI Sequence Read Archive鳥槍法宏基因組測序數(shù)據(jù)的增長(doi: 10.1016/j.cell.2016.08.007)
Nature文章實例
以Crits-Christoph和Diamond等人2018年6月發(fā)表于Nature的文章為例。研究人員用宏基因組測序的方式,從草地土壤樣本中獲得了376株細菌基因組,的基因組序列,發(fā)現(xiàn)了完全新穎的生物合成基因簇,并描述了它們的基因組學(xué)、系統(tǒng)發(fā)育學(xué)和生態(tài)學(xué)狀況。他們共鑒定出了1599個生物合成基因簇(biosynthetic gene clusters),推測這些基因簇可能合成非核糖體多肽、聚酮化合物等,很多非核糖體多肽合成酶(NPRS)和聚酮合成酶(PKS)都能夠合成抗生素、抗真菌素、嗜鐵素或免疫抑制劑,所以該研究中著重關(guān)注這兩類基因簇(圖4),以期發(fā)現(xiàn)新的抗生素和藥用化合物。
圖4. 樣本中提取到的基因組和其生物合成基因簇的情況差異展示。a,幾個菌門的平均相對豐度。b,生物合成基因簇在幾個菌門之間的分布,不同顏色代表由antiSMASH(用于生物合成基因簇的分析;http://antismash.secondarymetabolites.org)推測的產(chǎn)物類型c,研究鑒定到了240個NRPS、PKS(根據(jù)酶結(jié)構(gòu)域的組成差異分為Ⅰ型、Ⅱ型和Ⅲ型)和NRPS-PKS混合型基因簇,以及86個可能不完整的基因簇。盡管這些基因含量水平各異,但是由于這些酶具有保守的結(jié)構(gòu)域,因此他們的生物合成途徑是可識辨的。d,生物合成基因簇的網(wǎng)絡(luò)圖,連線代表兩端具有共有基因,共有基因所占比例越大連線越粗、顏色越深。由該圖可知,Verrucomicrobia、Acidobacteria和Rokubacteria中存在不同且稀疏的NRPS和PKS系統(tǒng),而多數(shù)稀有型NRPS基因簇之間的距離較為疏遠。在Rokubacteria和Acidobacteria的一支中保守的Ⅲ型PKS基因簇形成了一個密集的網(wǎng)絡(luò)集群,高度的保守性可能意味著一類新的代謝物的廣泛分布。
圖5. Acidobacteria中的生物合成NRPS/PKS基因簇。Acidobacteria中發(fā)現(xiàn)了兩個幾乎含有完整NRP和PKS基因簇的基因組,它們分別被命名為Candidatus Eelbacter (Eelbacter_gp4_AA13)和Candidatus Angelobacter (Angelobacter_gp1_AA117)。通過對Acidobacteria基因組中核糖體蛋白序列進行系統(tǒng)發(fā)育學(xué)分析,發(fā)現(xiàn)兩個基因組均進化出獨特的生物合成操縱子(5a)。Candidatus Angelobacter基因組中含有多種抗生素合成蛋白、一種細菌素合成簇、Ⅵ型和Ⅱ型分泌系統(tǒng)的多基因操縱子元件和一些含有RHS重復(fù)結(jié)構(gòu)的大蛋白;Candidatus Eelbacter基因組包含6個長度超過45kb的復(fù)合Ⅰ型NRPS-PKS混合型基因簇(5b)。
宏基因組測序有點兒貴,老板看了價格有點兒心碎。所以為了節(jié)約成本,很多同學(xué)就只能走上自己建庫的道路了。然而建庫質(zhì)量的優(yōu)劣直接影響測序數(shù)據(jù)的信息完整性和正確性,所以選擇合適的建庫方法和試劑就顯得尤為重要了。
這里,小編推薦VAHTS? Universal DNA Library Prep Kit for Illumina? V3快速通用型文庫構(gòu)建試劑盒。該試劑盒可用于100 pg - 4 μg Input DNA建庫,并且通過對經(jīng)典DNA建庫流程的末端修復(fù)模塊、連接模塊和文庫擴增模塊等環(huán)節(jié)的整體改進,使文庫轉(zhuǎn)化率和擴增文庫產(chǎn)出得到大幅提升,廣泛適用于各種樣本的PCR或PCR-Free文庫構(gòu)建。試劑盒中提供的所有試劑都經(jīng)過了嚴格的質(zhì)量控制和功能驗證,最大程度上保證了文庫構(gòu)建的穩(wěn)定性和重復(fù)性。
以上試劑盒可免費申請試用,數(shù)量有限先到先得哦。如需申請,請撩小編。
宏轉(zhuǎn)錄組
宏轉(zhuǎn)錄組測序是指從整體水平上研究某一特定環(huán)境、特定時期群體生命全部基因組轉(zhuǎn)錄情況以及轉(zhuǎn)錄調(diào)控規(guī)律的研究手段。它以生態(tài)環(huán)境中的全部RNA為研究對象,提取環(huán)境微生物群落中的全部轉(zhuǎn)錄本,進行高通量測序和生物信息學(xué)分析,與宏基因組研究相輔相成,能夠很好地揭示復(fù)雜微生物群落的變化,有效地擴展微生物資源的利用空間。
圖6. 宏轉(zhuǎn)錄組分析簡化流程(doi: 10.1007/s00253-018-8976-7)
表2. 測序公司提供的基于宏轉(zhuǎn)錄組測序數(shù)據(jù)的標(biāo)準(zhǔn)分析內(nèi)容
Nature文章實例
還是同一篇文章,結(jié)合宏轉(zhuǎn)錄組測序和Kallisto量化分析發(fā)現(xiàn),在133個差異表達的NRPS和PKS基因簇中,共檢測到198個NRPS/PKS基因的表達。在4個微生物門類中均檢測到了NRPS和PKS的表達,并且酸桿菌門有84個活性基因簇產(chǎn)生了表達。本文還檢測了Candidatus Eelbacter的10個生物合成基因簇(含11個NRPS/PKS結(jié)構(gòu)域基因)和Candidatus Angelobacter的25個生物合成基因簇(含25個NRPS/PKS結(jié)構(gòu)域基因),發(fā)現(xiàn)7個基因組中有10個NRPS/PKS基因簇在24h修正試驗過程中,表現(xiàn)出時間依賴性。
Candidatus Angelobacter中有5個生物合成基因簇與多種感知、響應(yīng)環(huán)境的基因具有共表達模型,如ToB(嗜鐵素攝取受體)、MacB(大環(huán)內(nèi)酯轉(zhuǎn)運物)、pbp(青霉素結(jié)合蛋白)、16s rRNA MT(16s rRNA甲基轉(zhuǎn)移酶)和gvp(氣泡蛋白)等(圖7c)。Angelobacter多個基因簇的生物合成基因表達是同步的,表明這些基因能夠協(xié)同響應(yīng)生態(tài)競爭。此外,Acidobactera_gp22_AA4和Gemmatimonadetes_AG49也具有多個重要的共表達基因,如rsb X/R/S(應(yīng)激響應(yīng)調(diào)節(jié)操縱子)、vgb(維及霉素同源酶B)和ToB等(圖7c)。
圖7. 生物合成基因的宏轉(zhuǎn)錄組。在添加了底物后12-24h,Candidatus Angelobacter基因組中幾個基因簇的基因表達水平顯著升高(7a),并且一些生物合成基因的表達與核心核糖體基因的表達不一致(7b)。表明Candidatus Angelobacter能夠?qū)λ突|(zhì)的添加產(chǎn)生響應(yīng),并且在核心代謝基因的表達量上升數(shù)小時后單獨調(diào)控次級代謝產(chǎn)物合成相關(guān)基因的表達。從基因共表達模型來看,7個基因組中有4個發(fā)生了顯著的次級代謝基因共表達富集(p<0.05)(7c)。
簡單來說,宏基因組能夠說明菌群“能做什么”,而宏轉(zhuǎn)錄組則是“要做什么”。尤其是在不同取樣時間點之間和實驗條件處理前后,宏轉(zhuǎn)錄組往往會發(fā)生明顯變化,據(jù)此可以建立菌群功能與影響因子之間的關(guān)聯(lián)性。后面我們還會介紹表征菌群“做了什么”和“做出了什么”的研究方法,敬請關(guān)注。
轉(zhuǎn)載出自林二狗宇宙實驗媛 ,如有侵權(quán)請及時聯(lián)系。