一、茶樹基因型數(shù)字化
基因型又稱遺傳型,是某一生物個體全部基因組合的總稱。基因型數(shù)字化鑒定能夠高通量準確鑒定基因型,是解析重要農(nóng)藝性狀相關遺傳信息的基礎,是茶樹種質資源研究的必然發(fā)展趨勢。
1.基因組組裝
2017—2018年,利用二代測序技術進行基因組序列組裝的云抗10號和舒茶早基因組草圖陸續(xù)公布。其中,云抗10號組裝得到的基因組大小為3.02Gb,包括了36951個注釋編碼蛋白;舒茶早基因組大小為3.14Gb,包含33932個注釋編碼蛋白。
隨著三代測序和Hi-C技術的成熟,近些年公布了多個染色體水平的茶樹基因組。利用Hi-C技術將舒茶早基因組草圖提升到了染色體水平,scaffoldN50從原來的1.4Mb提升到218.1Mb,基因組中94.7%的序列被定位到了15條染色體中。利用PacBio和Hi-C技術,構建了染色體級別的舒茶早基因組,其大小為2.94Gb,具有50525個注釋編碼蛋白。利用PacBio和Hi-C技術獲得了茶樹碧云染色體級別的基因組圖譜,其大小為2.92Gb,scaffoldN50為195.68Mb。公布了龍井43的染色體級別基因組序列,其基因組大小為3.26Gb,編碼33556個注釋蛋白。華中農(nóng)業(yè)大學的研究團隊公布了云南省古茶樹DASZ基因組序列,該基因組為3.11Gb,編碼33021個注釋蛋白。福建農(nóng)林大學和中國農(nóng)業(yè)科學院基因所發(fā)布了黃棪和鐵觀音2個品種染色體級別的基因組序列。黃棪茶樹基因組為2.94Gb,包含43779個蛋白質編碼基因。鐵觀音茶樹基因組大小為3.06Gb,包含了42825個蛋白質編碼基因。
茶樹基因組和基因家族的進化
‘龍井43’基因組特征和質量評估結果
2.單核苷酸多態(tài)SNP分型
全基因組重測序能夠基于SNP實現(xiàn)全基因組水平上的基因型分型,近年來逐步開始應用于茶樹種質資源的鑒定。對來自中國、老撾、俄羅斯、阿塞拜疆和伊朗的81個栽培型和野生型茶樹進行重測序,共檢測到6252201個SNP位點,基于基因型進行了系統(tǒng)發(fā)育分析,將這些資源分為3個類群。利用重測序技術對來自世界各地的139份茶樹種質資源進行分析,得到了21887萬個SNP位點的基因型分型結果,平均1kb就有67個SNP位點。對190份茶樹資源進行重測序分析,共鑒定到9407149個SNP位點,得到相關基因型分型結果,并進行了茶樹種質資源的系統(tǒng)發(fā)育分析。對金萱和云茶1號及其96個F1代進行了全基因組重測序,利用8956個SNP位點的基因型數(shù)字化結果構建了遺傳圖譜。
簡化基因組測序是利用限制性內切酶對DNA進行酶切,并對酶切片段兩端序列進行高通量測序,通過鑒定獲得的SNP信息進行基因分型,是一種快速、簡單、低成本的基因型數(shù)字化方法?;谟⒈避S單株及其148個F1子代利用SLAF-seq技術開發(fā)出了6042個SNP標記,并以此建立了首張茶樹SNP遺傳圖譜?;邶埦?3、白毫早及其327個F1代使用2bRAD測序技術獲得了13446個SNP標記,構建了高密度遺傳圖譜,并得到了27個與兒茶素相關的QTL位點。利用簡化基因組技術對59份茶組植物進行測序,得到了248772個高質量SNP位點的分型結果,隨后對這些SNP位點進行了主成分分析、遺傳結構分析和基因流分析,結果發(fā)現(xiàn)大廠茶與疏齒茶有遺傳結構上的差異,且證明茶組植物種內親緣關系受其地理來源的直接影響。對龍井43、白雞冠及其雜交產(chǎn)生的198個F1個體進行了簡化基因組測序,構建了包含2688個SNP標記的遺傳圖譜,并根據(jù)2年的氨基酸數(shù)據(jù)進行了QTL分析,最終得到了4個與氨基酸含量相關的QTL位點。
轉錄組測序能夠鑒定基因表達區(qū)的SNP位點,進行SNP分型。完成了古茶樹DASZ染色體級別的基因組組裝,并在此基礎上與217份不同茶樹種質資源的轉錄組數(shù)據(jù)進行比較。結果表明,81.1%的DASZ注釋基因被覆蓋SNPs,其中4個SNP與ECG的含量顯著關聯(lián)。利用139份中國茶樹品種的轉錄組數(shù)據(jù)鑒定到了925854個高質量的SNP,并將139份茶樹品種分為5個類群,發(fā)現(xiàn)每個類群各有特異代謝物積累和基因表達差異,其中阿薩姆茶具有豐富的黃酮類化合物積累。
二、茶樹表型數(shù)字化
表型組學旨在集成自動化平臺裝備和信息化技術手段,可以系統(tǒng)、高效地獲取表型信息,以實現(xiàn)植物表型的數(shù)字化精準鑒定。表型組學常常構建一些表型檢測平臺,搭載圖像、點云、光譜、紅外、X射線等技術來快速高效地數(shù)字化采集植物多尺度的大量表型數(shù)據(jù),目前已在玉米、小麥、大豆等較多作物上應用。
表型組學在茶樹種質資源鑒定評價中的應用還處于起步階段,一些簡單的技術在茶樹葉片形態(tài)特征和農(nóng)藝性狀相關的表型上開展了應用。利用Photoshop對茶樹的葉面積進行了測量,并與葉面積的經(jīng)驗公式進行對比,發(fā)現(xiàn)計算機測定的結果更加準確。利用Photoshop對茶樹新梢的顏色和成熟葉的葉面積進行了測定,并對其中的相關參數(shù)進行了分析。但是這兩項工作都是基于Photoshop軟件進行研究,導致關于圖像處理的操作有限,自由度小,同時工作效率也受到限制,難以處理大批量的茶樹葉片圖像。隨著數(shù)字化研究的不斷深入,像Python、R、MATLAB等編程語言因具有批量處理、速度快、應用面廣等優(yōu)點,漸漸成為了進行茶樹表型數(shù)字化處理的主流工具。隨著無人機技術的發(fā)展,利用無人機對茶樹進行表型分析成為了新的發(fā)展趨勢。利用3種模型分別通過無人機拍攝的茶園多光譜圖片對茶樹的氮、茶多酚和氨基酸的含量進行評估。結果表明,SVM模型對于預測氮和茶多酚的含量最佳;PLSR模型預測氨基酸的含量是最佳的,同時證明空中預測結果與地面測量結果一樣可靠,這為茶樹種質資源的精準評價提供了技術支持。
SVM、PLS和BP模型被用于驗證,并測量和預測的值進行比較和分析:(a)使用支持向量機來預測氮(N);(b)利用SVM預測茶多酚(TP);(c)利用SVM預測氨基酸(AA);(d)PLS回歸預測N;(e)PLS回歸預測TP;(f)PLS回歸預測AA;(g)BP預測N;(h)利用BP預測TP;(i)利用BP預測AA。
目前,茶樹種質資源表型數(shù)字化的應用主要體現(xiàn)在基于分類器結合圖像特征對茶樹種質資源識別的方面。提取了17份茶樹種質資源的14個圖像特征,并基于圖像特征進行了遺傳多樣性分析,并利用人工神經(jīng)網(wǎng)絡對茶樹品種進行了預測。通過茶樹鮮葉圖像對10個茶樹品種進行了識別。除了利用形態(tài)特征、紋理特征及顏色特征外,還使用多重分形特征來對葉片進行描述,并用6種分類器同時建模比較分類精度。結果表明,SVM和隨機森林法的建模對茶樹種質資源的分類精度較高,能達到90%左右。在利用圖像特征識別武夷巖茶的方面研究較多,2018年對SVM分類器的內核進行了優(yōu)化后,以提取的14個形狀和紋理圖像特征為基礎,對水仙和肉桂這2份茶樹資源進行識別,準確率高達91%;2019年利用3種分類器通過灰度共生矩陣下的紋理特征對黃觀音、瑞香、丹桂和奇蘭4個品種的茶鮮葉進行識別,其識別準確率在80%左右,且結果證明KNN分類器的識別率最高;2020年利用整體與局部信息融合的CNN模型結合茶樹葉片的整體特征和局部特征對9個武夷巖茶茶樹品種進行識別,識別率達到96.69%。
三、茶樹數(shù)字化管理與利用
隨著表型組和基因組的快速發(fā)展,大量種質資源的數(shù)字化表型和基因型被鑒定,這使得很多重要的農(nóng)藝性狀被揭示。但是由于數(shù)據(jù)量大,導致共享利用不便,阻礙了茶樹重要農(nóng)藝性狀的分子解析。隨著互聯(lián)網(wǎng)技術的快速發(fā)展,種質資源信息數(shù)據(jù)庫的搭建可以快速實現(xiàn)數(shù)字化管理與利用。中國農(nóng)業(yè)科學院茶葉研究所利用生物信息技術和互聯(lián)網(wǎng)技術建設了茶樹種質資源基因組變異大數(shù)據(jù)分析平臺。目前平臺已經(jīng)整合超過7000多萬個基因組變異位點、808份茶樹資源的基因型數(shù)據(jù)、464種代謝物的表型數(shù)據(jù)和430682個基因型-表型關聯(lián)位點。平臺主要用于茶樹種質資源基因組變異的大數(shù)據(jù)在線分析,能夠根據(jù)基因組位置、基因信息、材料比較、基因或變異編號等不同的策略檢索基因組SNP和InDel。通過該平臺還能夠實現(xiàn)茶樹種質資源的代謝表型查詢及GWAS分析,快速挖掘性狀相關的SNP和InDel位點。此外,平臺還整合了在線Blast、序列提取、引物設計、群體遺傳分析等工具,為茶樹種質資源的數(shù)字化利用與共享提供了一個用戶友好型平臺。安徽農(nóng)業(yè)大學構建了茶樹信息檔案數(shù)據(jù)庫(TPIA),以舒茶早基因組圖譜為框架,整合了基因組信息、轉錄組、代謝組等數(shù)據(jù)。平臺還集成了功能富集分析、相關性分析、引物設計、序列比對等工具,有助于組學數(shù)據(jù)的數(shù)字化利用。南京農(nóng)業(yè)大學構建了茶樹基因組數(shù)據(jù)庫(TeaPGDB),整合了已完成組裝的各個基因組數(shù)據(jù),方便科研人員進行利用分析。此外,一些轉錄組相關的數(shù)據(jù)庫網(wǎng)站也陸續(xù)被開發(fā),如TeaCoN、TeaAS等。茶樹種質資源數(shù)字化管理與利用能有效促進茶樹種質資源的保護、利用與共享,為茶樹系統(tǒng)演化研究、關鍵性狀解析、品種改良等提供了堅實的基礎。
茶樹信息檔案數(shù)據(jù)庫(TPIA)
四、展望
1.組學技術
未來,組學技術將在茶樹種質資源的數(shù)字化精準鑒定方面不斷深入,利用基因組學、轉錄組學、表觀組學、蛋白組學、代謝組學、表型組學等技術手段,對茶樹種質資源進行高通量、多維度、精準化的鑒定評估。與基因組學技術相比,表型組學技術在茶樹種質資源中的應用還比較落后,這阻礙了茶樹種質資源的精準評價和深入挖掘進程。針對茶樹種質資源的特性,加強茶樹表型鑒定設施平臺的建設,開發(fā)對應的數(shù)字化鑒定方法,從而提升茶樹種質資源規(guī)模化、批量化、精準化鑒定評價的基礎和條件。
2.多組學聯(lián)合分析
伴隨著大量茶樹種質資源被數(shù)字化精準鑒定,多組學聯(lián)合分析將成為實現(xiàn)茶樹種質資源創(chuàng)新利用的必然途徑。通過基因組學和生物信息學等技術手段,利用多組學聯(lián)合分析系統(tǒng)深入挖掘基因型、表型和環(huán)境型之間的內在關聯(lián),研究茶樹表型對遺傳信息和環(huán)境變化的響應機制。同時,結合分子生物學、遺傳育種學、生物化學、合成生物學等技術,深入解析茶樹重要農(nóng)藝性狀的分子機理和遺傳基礎,為茶樹種質資源的創(chuàng)新利用提供堅實基礎,并加速茶樹品種改良進程。
3.數(shù)字化利用與共享
茶樹種質資源數(shù)字化鑒定評估產(chǎn)生的數(shù)據(jù)量龐大、標準不一,導致共享利用不便,阻礙了其生物數(shù)據(jù)的有效利用。為了增加不同數(shù)據(jù)集之間的可比性,必須通過科學的分類、統(tǒng)一的描述規(guī)范和對茶樹種質資源的基因組、轉錄組、代謝組、表型組等組學數(shù)據(jù)進行標準化處理和評價。利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術,整合茶樹種質資源多組學數(shù)據(jù),開發(fā)友好型在線分析工具,創(chuàng)建資源共享利用平臺,加快數(shù)字化種質資源的利用效率,推動整個茶科學的進步與發(fā)展。
本文節(jié)選自《中國茶葉》2022年第4期,P1-7,《茶樹種質資源數(shù)字化研究及展望》,作者:陳琪予,陳亮,陳杰丹。
信息貴在分享,如涉及版權問題請聯(lián)系刪除