中大團隊借助人工智能技術(shù)發(fā)現大量全新RNA病毒
南都訊 記者孫小鵬 通訊員朱嘉豪 李建平 日前,中山大學(xué)醫學(xué)院施莽教授團隊與阿里云李兆融團隊在《細胞》雜志(Cell)發(fā)表論文,報告了全球范圍的180個(gè)超群、16萬(wàn)余種的RNA病毒發(fā)現,大幅擴展全球RNA病毒的多樣性。該研究將人工智能技術(shù)應用于病毒鑒定,發(fā)現了傳統研究方法未能發(fā)現的病毒“暗物質(zhì)”,探索了病毒學(xué)研究的新路徑。
傳統的病毒發(fā)現方法包括病毒分離和生命組學(xué)的生物信息學(xué)分析,高度依賴(lài)既有知識,面對RNA病毒這種高度分化、種類(lèi)繁多且容易變異的病毒識別效率低。在該研究中,團隊開(kāi)發(fā)的LucaProt人工智能算法能夠對病毒和非病毒基因組序列深度學(xué)習,并在數據集中自主判斷病毒序列。利用這套算法,研究團隊在來(lái)自全球生物環(huán)境樣本的10487份RNA測序數據中發(fā)現了超過(guò)51萬(wàn)條病毒基因組,代表超過(guò)16萬(wàn)個(gè)潛在病毒種及180個(gè)RNA病毒超群。其中23個(gè)超群無(wú)法通過(guò)序列同源方法識別,被稱(chēng)為病毒圈的“暗物質(zhì)”。
“人工智能的算法模型能夠挖掘出我們之前忽略或根本不知道的病毒,這種能力在疾病防控和新病原的快速識別中尤為重要。特別是在疫情暴發(fā)時(shí),人工智能的速度和精度可以幫助科學(xué)家更快地鎖定潛在病原體。”施莽說(shuō)。
通過(guò)進(jìn)一步分析,團隊報告了迄今最長(cháng)的RNA病毒基因組,長(cháng)度達到47250個(gè)核苷酸;發(fā)現了超出以往認知的基因組結構,展現出RNA病毒基因組進(jìn)化的靈活性;識別到多種病毒功能蛋白,特別是與細菌相關(guān)的功能蛋白,進(jìn)一步表明還有更多類(lèi)型的RNA噬菌體亟待探索;發(fā)現在南極底泥、深海熱泉、活性污泥和鹽堿灘等極端環(huán)境中,RNA病毒的數量和多樣性仍然較高。新病毒的發(fā)現,刷新著(zhù)科學(xué)家對病毒圈的認識。
“面對遠源的新病毒,現有的病毒分類(lèi)體系已經(jīng)顯得力不從心。未來(lái),這一體系在門(mén)、綱等更深層次的分類(lèi)上,可能會(huì )有大規模的調整。”施莽說(shuō):“我們的研究展示了病毒多樣性的深度,但廣度仍有待更多樣本的補充。病毒的多樣性遠超人類(lèi)想象,我們目前所看到的仍是冰山一角。”
施莽表示,這項研究與阿里云飛天實(shí)驗室的AI4S-生物計算團隊合作開(kāi)展,希望未來(lái)繼續通過(guò)跨領(lǐng)域科研合作,充分利用云計算和人工智能的優(yōu)勢,解決生命科學(xué)領(lǐng)域的重要問(wèn)題。