英國“深度思維”公司今年8月曾宣佈,其開發的人工智慧(AI)程式“阿爾法折疊”已預測出約100萬個物種的超過2億種蛋白質的結構,涵蓋科學界已編錄的幾乎每一種。現在,元宇宙平臺公司(Meta)研究人員利用人工智慧ESMFold預測了來自細菌、病毒和其他尚未被表徵微生物的6億多種蛋白質的結構。相關研究已經提交生物預印本網站biorxiv.org。
在最新研究中,Meta AI蛋白質團隊使用“大型語言模型”預測了這些蛋白質的結構。要構建能通過幾個字母或單詞預測文本的工具,離不開大型語言模型的基礎。語言模型通常需要大量文本進行訓練,為將其應用於蛋白質,研究團隊用已知的蛋白質序列訓練它們,這些已知蛋白質可由20個不同氨基酸組成的鏈來表達,每個氨基酸由一個字母表示。然後,ESMFold學會了用模糊的氨基酸比例“自動完成”蛋白質。
團隊負責人亞歷山大·裏維斯表示,這些訓練讓ESMFold對包含蛋白質形狀資訊的蛋白質序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一網路能將這些了解到的資訊與已知蛋白質結構和序列之間關係的資訊結合,生成預測結構。
隨後,他們在一個數據庫上運用這一模型,該數據庫由來自土壤、海水、人類腸道、皮膚和其他微生物棲息地的“宏基因組”DNA組成,其中絕大多數DNA條目編碼潛在蛋白質,來自從未被培養過也不為人所知的生物體。總體而言,ESMFold預測了超6.17億種蛋白質的結構,且只花了兩周時間。而“阿爾法折疊”預測一種結構可能需要幾分鐘。
團隊指出,ESMFold雖然不像“阿爾法折疊”那麼準確,但在預測結構方面的速度要快60倍,這意味著他們可將結構預測擴展到更大的數據庫。
裏維斯表示:“這些來自土壤、海水和人體的微生物分子是我們了解最少的結構,最新研究有助於我們更進一步洞悉生物學。”
【總編輯圈點】
人們形容蛋白質時,常説它乃生命之基石。但蛋白質的意義其實與其結構密切相關,因此如果能更深入的了解其結構,就可以更好地明確其工作原理,從而加速幾乎所有生物學領域的研究,譬如為疾病設計新的療法或疫苗。這也是目前多家團隊致力於預測蛋白質結構的主要目的。現在,這一預測已涵蓋了整個蛋白質世界,包括動物、植物、細菌、真菌和其他生物體的預測結構,可以預見,這些成果除了幫助攻克生命科學瓶頸外,也將在解決可持續性、糧食安全等重要問題上開闢新機。