降低AI for Science門檻實現生命科學領域新突破

發佈時間：2022-12-15 11:38:11 | 來源：科技日報 | 作者： | 責任編輯：徐麗麗

説到AlphaGo，一般人都或多或少聽説過，它因擊敗了人類圍棋大師被譽為“世界壯舉”，標誌著人類向通用型的人工智慧邁出了具有里程碑意義的重要一步。

而如今在前沿科學研究中的AlphaFold2模型則是人工智慧（AI）應用的另外一個標誌，它因展現出AI for Science的巨大潛力，而受到了各界人士的青睞。

AlphaFold2助蛋白質結構預測，樹AI for Science新高度

蛋白質是組成人體細胞組織的重要成分，對蛋白質三維結構開展有效解析與預測，可為生物學、醫學、藥學乃至農業、畜牧業等行業未來研究與發展提供重要依據，尤其對與人類健康直接相關的藥物研發意義重大。

然而，用X光、冷凍電鏡、核磁共振等傳統方法對蛋白質結構進行解析，遠趕不上氨基酸序列的增加速度，這會造成海量待測樣品在實驗室中等待數月乃至數年。國際權威數據庫SWISS-PROT顯示，目前累計的蛋白序列的資訊已經超過56萬，用傳統方法去完成這浩瀚繁多的測序無疑成為“不可能完成的任務”，須另辟蹊徑。

科技創新的車輪滾滾向前。如前文所述，人工智慧的發展為蛋白質測序效率帶來了契機。其中AlphaFold2模型讓人工智慧在生物醫藥領域發揮著重要的作用。

一般來説，人工智慧方法的預測精度超過90分，便可認為預測結果與實驗方法得到的蛋白質結構基本一致。而AlphaFold2的92.4分，其不僅可以分析X-射線晶體學很難解決的楔入細胞膜中的蛋白質結構，還成功解開了蛋白質折疊問題，甚至可以幫助研究者們製造自然界中不存在的蛋白質。

AlphaFold2帶來的這些重大突破，標誌著AI輔助藥物基礎理論研究進入新的階段，樹立了AI for Science新高度。

比如，目前全球設計的幾乎所有的藥物都作用於蛋白質，通俗講，需要像鑰匙開鎖般精確匹配，而此過程的第一步是確定哪把鑰匙開哪把鎖，用更專業的話説，就是尋找藥物靶標，即弄清楚藥物分子作用與何種蛋白結合。而通過可解碼蛋白質結構的人工智慧演算法，就可快速篩選成千上萬的新藥物靶標，從而大大縮短新藥研製週期；而製造自然界中並不存在的蛋白質，無疑可以更好幫助人類以前所未有的方式應對重大挑戰。

端到端優化AlphaFold2，讓人工智慧更普適濟民

AlphaFold2為蛋白質結構解析與預測提供了通途，為人工智慧在生物醫藥等領域的應用打開了新的窗口，然而隨其在産、學、研各細分領域中的落地，也遇到嚴峻挑戰。例如，隨各種應用對於推理高通量和高性能的需求與日劇增，使用者需要更加充分地挖掘平臺計算潛力，來提升執行效率。

所謂高通量測序技術，也被稱為革命性的蛋白質測序方法，也是“十四五”時期生物經濟領域重點推進創新應用的一項關鍵技術，簡單講就是一次並行對大量核酸分子進行平行序列測定的技術，但實施一次測序就能産出不低於100Mb的數據，這巨大的數據量給AlphaFold2的應用帶來很大困擾。

原來，AlphaFold2剛問世時由於演算法和硬體架構本身等問題，如GPU的並行計算，但是這類硬體存在嚴重的記憶體限制，使得即便是使用單卡最大記憶體，能夠輸入去預測的蛋白質序列長度也不足1000氨基酸。

面對突破這一瓶頸的急迫需求，英特爾^？架構産品——內置AI加速能力的至強^？可擴展平臺搭配傲騰？持久記憶體的産品組合，使得CPU平臺得以具備TB級的記憶體容量，有潛力滿足高通量測序需求。基於這一優勢，英特爾針對不同氨基酸序列長度下蛋白質結構預測所需佔用的記憶體開展了實驗，實踐表明該組合打破了限制預測序列長度的 “記憶體墻”，實現了AlphaFold2的高通量優化。

結果顯示，從短到206個氨基酸，至長到2797個氨基酸，最終都達到了預期效果，驗證了至強^？可擴展平臺産品組合，能夠輕鬆應對AlphaFold2蛋白質測序從20GB至510GB的記憶體佔用，並有助於其實現更大範圍的蛋白結構探索。

在推動AlphaFold2提升普適性、拓展應用的進程中，英特爾在發揮至強^？可擴展平臺産品組合提供強勁通用算力的同時，亦充分利用豐富的軟體工具實施通量優化，讓處理器內置的英特爾^？AVX-512技術，在英特爾^？oneAPI 軟體工具的激活與配合下，實現並行計算加速，為AlphaFold2應用進一步提供性能調優空間。

這一軟體級調優，經先在預處理階段對模型進行高通量優化，然後將模型遷移到PyTorch框架，接著再在PyTorch版本上進行細節上的推理優化，最後給予TB級記憶體支援，即可實現更優的加速效果。

經由上述基於至強^？可擴展平臺對AlphaFold2實施的端到端優化，對於一個含有765氨基酸的蛋白質測試樣例，採用CPU 64個物理核併發模式，支援了最高3.2TB的記憶體消耗，測試通量從未經任何優化的4.56序列/天提升105.35序列/天，效率提升達23.11倍；且如果在單節點上配備最高8TB記憶體，就可以支援完成高於10000氨基酸序列長度下蛋白結構的預測，為人工智慧在藥物研發等領域的廣泛應用展現了無限可能。

在國際學術期刊《Science》聯合英特爾推出的《架構師成長計劃》課程中，晶泰科技的首席研發專家楊明俊博士這樣談到：“以AlphaFold2為代表的研究成果，被認為是開拓了科學研究的第四範式，就是基於大量的數據，然後採用以深度神經網路為代表的模型，給出對問題的一個解答。蛋白質結構預測曾經被認為是不可能完成的一件事情，如今被AI演算法實現，這標誌著AI在生物醫藥領域的進展邁入了一個全新的領域和階段。”

《“十四五”生物經濟發展規劃》明確把加快發展高通量基因測序技術，作為開展前沿生物技術創新的重要手段；支援採用人工智慧等資訊技術，實現藥物産業的精準化研製，進而通過生物技術與資訊技術融合更好惠民。

相信在這一進程中，英特爾的架構優勢也能物盡其用，其軟硬兼施對AlphaFold2生物資訊測序效率實現端到端優化，並使其具備更高適用性的生動實踐，展現了人工智慧與科學研究的相互融合，併為人類在前沿科學領域的未來發展帶來了廣闊的想像空間。通過不斷地範式創新成果樹立新的“AI for Science”里程碑，以創造更美好的未來！

AI for Science：科學智慧，用AI去學習科學原理，得到模型，進而去解決實際問題。

AlphaGo：阿爾法圍棋，是DeepMind公司的一個人工智慧程式。

AlphaFold2：DeepMind公司的另一人工智慧程式，用於蛋白質結構預測。

AI：人工智慧。

GPU：圖形處理器，是一種專門做圖像和圖形相關運算工作的微處理器。

CPU：中央處理器，電腦系統的運算和控制核心。

AVX-512：英特爾^？高級向量擴展512，是一組能夠針對各種工作負載和用途（如科學模擬、深度學習、3D建模與分析等）提高性能的指令。

oneAPI：一套完整的高級編譯器、庫以及移植、分析和調試器工具，其利用先進的硬體功能加速計算，可與現有的編程模型和代碼庫互操作。

PyTorch：是一個開源的Python（電腦編程語言）機器學習庫。

文章及數據來源：英特爾（中國）有限公司

[列印] [收藏] [發表評論]

分享到:

降低AI for Science門檻 實現生命科學領域新突破

降低AI for Science門檻實現生命科學領域新突破