智源研究院發佈超大規模智慧模型“悟道1.0”，我國人工智慧應用基礎設施走上快車道

發佈時間：2021-03-22 | 來源：中國網 | 作者： | 責任編輯：清水

3月20日，北京智源人工智慧研究院舉辦“智源悟道1.0 AI研究成果發佈會暨大規模預訓練模型交流論壇”。北京市科委、中關村管委會副主任許心超出席會議並致辭。北京大學、清華大學、中國人民大學、中國科學院等高校院所的專家學者，美團、快手、搜狗、360、一流科技、智譜華章、一覽群智、迴圈智慧等AI企業，以及新華社等應用機構代表參會。

會上，智源研究院發佈超大規模智慧模型“悟道1.0”。“悟道1.0”是我國首個超大規模智慧模型系統，由智源研究院學術副院長、清華大學唐傑教授領銜，帶領來自北京大學、清華大學、中國人民大學、中國科學院等單位的100余位AI科學家團隊聯合攻關，取得了多項國際領先的AI技術突破，形成超大規模智慧模型訓練技術體系，訓練出包括中文、多模態、認知、蛋白質預測在內的系列模型，勇闖通用智慧發展前沿，構建我國人工智慧應用基礎設施。同時，與龍頭企業共同研發工業級示範性應用，加快大規模智慧模型應用生態建設。

“悟道”模型：北京超前部署通用智慧發展的重要舉措

圖：北京市科委、中關村管委會黨組成員、副主任許心超

北京市科委、中關村管委會副主任許心超在致辭中指出，“十四五”時期，北京國際科創中心建設要走出新路子，關鍵是能力和生態的構建。北京將依託在人工智慧領域的科技資源和産業發展優勢，支援建設智源研究院等一批世界一流新型研發機構，前瞻部署人工智慧基礎研究，加強關鍵核心技術攻關，推動人工智慧佔先。另外，北京將充分發揮中關村國家自主創新示範區、中國（北京）自由貿易試驗區的政策優勢，為人工智慧領域的高校院所、企業等創新主體創造更好的科研生態、技術生態、産業生態。

北京市超前部署通用智慧發展，支援智源研究院牽頭建設“超大規模人工智慧模型訓練平臺”，今天發佈的“悟道1.0”即為該平臺的重要內容，通過研發超大規模資訊智慧模型和生命模型，推動電子資訊、生物醫藥等基礎科學科研範式變革，加速科學研究進程。同時，推動創新企業及個人開發者基於大模型構建智慧化水準更高的場景應用，賦能實體經濟智慧化升級，促進經濟高品質發展。

“悟道”模型：旨在從更加本質的角度進一步探索通用智慧

會上，智源研究院院長黃鐵軍教授介紹了“悟道”模型研發的初衷。據他介紹，本輪人工智慧浪潮的基本特點是“數據+算力+演算法=模型”，模型濃縮了訓練數據的內部規律，是實現人工智慧應用的載體。近年來人工智慧的發展，已經從“大煉模型”逐步邁向了“煉大模型”的階段，通過設計先進的演算法，整合盡可能多的數據，匯聚大量算力，集約化地訓練大模型，供大量企業使用，這是必然趨勢。

圖：智源研究院院長黃鐵軍

智慧模型不僅要規模大（主要體現為參數量），還要智商高，才能滿足各種應用需要，這需要突破大量技術挑戰。例如：如何使得預訓練模型具備像人類一樣的符合邏輯、意識和推理的認知能力？如何實現對圖、文和視頻等多模態數據和資訊的理解和建模的統一？如何將中文融入預訓練模型，推動中文應用背景下的人工智慧的發展？如何使得預訓練模型深入融入自然科學研究，在目前基礎上進一步實現對超長/複雜蛋白質序列的建模和預測？

作為以人工智慧源頭創新為使命的新型研究機構，智源研究院2020年10月正式啟動超大規模智慧模型“悟道”項目，研發既博大又精深的超大規模訓練模型，從更加本質的角度進一步探索通用人工智慧。同時，構建大規模智慧模型應用生態，推動相關機構和個人開發者基於模型研發各類新型智慧應用，服務我國實體經濟産業升級。

成立“悟道”模型技術委員會：匯聚國內大模型研發頂尖人才，指導大模型戰略佈局和關鍵技術攻關

圖：智源大模型技術委員會（部分），從左到右分別為黃鐵軍、唐傑、鄂維南、

文繼榮、萬小軍、劉知遠、楊植麟

為了更好地推動“悟道”大模型的研發，保持研發過程中技術的領先性，此次發佈上，還同時成立了由9位來自學術界和産業界的頂尖科學家組成的“悟道”大模型技術委員會。委員會主任由清華大學唐傑教授擔任，委員會成員包括：北京大學鄂維南院士、清華大學魯白教授、中國人民大學人工智慧資訊學院院長文繼榮教授、清華大學電腦係長聘副教授劉知遠、清華大學電腦係長聘副教授黃民烈、北京大學王選電腦研究所萬小軍研究員、一流科技創始人袁進輝、迴圈智慧聯合創始人楊植麟。後續，技術委員會將為大模型研發的技術方案和路線選擇等進行指導和把關。

“悟道1.0”：我國首個超大規模智慧模型

會上，“悟道”模型技術委員會主任、智源研究院學術副院長唐傑教授介紹了“悟道”模型的戰略佈局及階段性成果。據介紹，“悟道1.0”先期啟動了4個大模型的研發。

圖：智源學術副院長唐傑介紹”悟道”大模型團隊

1. 悟道·文源：面向中文的預訓練語言模型

“悟道·文源”是“以中文為核心的大規模預訓練模型”，目標是構建完成全球規模最大的以中文為核心的預訓練語言模型，在中英文等多個世界主流語言上取得最好的處理能力，在文本分類、情感分析、自然語言推斷、閱讀理解等多個任務上超越人類平均水準，探索具有通用能力的自然語言理解技術，並進行腦啟發的語言模型研究。

目前，“悟道·文源”模型參數量達26億，具有識記、理解、檢索、數值計算、多語言等多種能力，並覆蓋開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務，技術能力已與GPT-3實現齊平，達到現有中文生成模型的領先效果。

2. 悟道·文瀾：首個公開的中文通用圖文多模態預訓練模型

“悟道·文瀾”是“超大規模多模態預訓練模型”，目標是突破基於圖、文和視頻相結合的多模態數據的預訓練理論難題，並最終生成産業級中文圖文預訓練模型和應用，並在多個評測應用上超過國際最高性能。

目前，“悟道·文瀾”模型參數量達10億，基於從公開來源收集到的5000萬個圖文對上進行訓練，是首個公開的中文通用圖文多模態預訓練模型。目前，該模型性能已到達國際領先水準，在中文公開多模態測試集AIC-ICC的圖像生成描述任務中，得分比冠軍隊高出5%；在圖文互檢任務中，得分比目前最流行的UNITER模型高出20%。

“悟道·文瀾”模型已對外開放API。發佈會上，為了展示如何使用“悟道·文瀾”模型，智源研究院聯合中國人民大學高瓴人工智慧學院和一覽群智公司，推出了兩款基於該模型的小應用，其中“賦魂”AI小程式，可以為用戶上傳的照片配文，“AI心情電臺”小程式可以利用圖片和歌詞的相關性，為用戶上傳的照片搭配最合拍的音樂。

3. 悟道·文匯: 我國首個具有認知能力的超大規模預訓練模型

“悟道·文匯”為“面向認知的超大規模新型預訓練模型”，致力於從認知的角度研究通用人工智慧中一系列更本質問題，側重進一步提升和發展預訓練模型基於邏輯、意識和推理的認知能力，目標是研發出千億至萬億級別參數量的、更通用且性能超越國際水準的預訓練模型，搭建預訓練模型體系，同時形成認知智慧生態。

目前，“悟道·文匯”模型的參數規模達113億，在多項任務中“悟道·文匯”的表現已經接近突破圖靈測試，通過簡單微調就已經實現AI作詩、AI作圖、AI製作視頻、圖文生成、圖文檢索、複雜推理。

另外，“悟道·文匯”在圖靈測試中已取得接近人類的作詩水準。

“悟道·文匯”模型還可以實現“以文生圖”，自動作畫。

4. 悟道·文溯：超大規模蛋白質序列預測預訓練模型

“悟道·文溯”是“超大規模蛋白質序列預測預訓練模型”，最終目標是以基因領域認知圖譜為指導，研發出十億參數規模、可以處理超長蛋白質序列的超大規模預訓練模型，在基本性能、可解釋性和魯棒性等多個方面達到世界領先水準。

目前，“悟道·文溯”已在蛋白質方面完成基於100GB UniParc數據庫訓練的BERT模型，在基因方面完成基於5-10萬規模的人外周血免疫細胞（細胞類型25-30種）和1萬耐藥菌的數據訓練，同時搭建訓練軟體框架並驗證其可擴展性。

據唐傑教授介紹，此次發佈的“悟道”大模型1.0版本，已經完成了百億和千億參數規模的預訓練，在多個國際評測中取得世界第一，在部分任務上具有一定認知能力。今年，還將陸續發佈後續迭代版本，面向産業界開放使用。

“悟道1.0”：構建了超大規模預訓練模型技術體系，取得多項國際領先的AI技術突破

在科研方面，“悟道1.0”模型正在逐步搭建並完善超大規模預訓練模型技術體系，取得了多項國際領先的AI技術的突破。

1. 基礎性能方面，在自然語言理解和生成、跨視覺和文字的理解與檢索等多項任務上取得更好表現

（1）“悟道·文匯”提出了全新的預訓練範式GLM，以生成為核心，打破BERT和GPT瓶頸，歷史上首次實現單一模型在理解、生成、seq2seq三種任務上取得最優效果；相同訓練量下，超越BERT、RoBERTa、T5等常見預訓練模型。

（2）“悟道·文瀾”發佈首個公開中文通用圖文多模態預訓練模型，能夠懂得基於圖文弱相關的“內涵資訊”。

2. 針對預訓練模型有效使用，提出高效演算法

（1）“悟道·文匯”提出基於連續向量的微調方法P-Tuning，歷史上首次實現自回歸模型在理解任務上超越自編碼模型，並在知識抽取(LAMA)、少樣本學習(Superglue Fewshot)等10多個任務上取得世界第一，性能提升超20%；

（2）“悟道·文匯”提出Inverse Prompting演算法，顯著改善了對語言模型生成結果的控制，效果大幅度超越當前最好方法，在問答和詩歌生成任務中接近人類水準，並首次實現根據現代題材創作古體詩；

（3）“悟道·文源”發佈開源的中文預訓練模型CPM，並進一步開源了微調演算法代碼。以此為基礎的模型蒸餾技術CPM-Distill，實現語言困惑度降低38%，在下游任務上獲更好效果；

（4）“悟道·文瀾”不同於OpenAI的CLIP模型，採用更先進的跨模態對比學習演算法：給定某一圖文對，基於MoCo思想，對每種模態擴大負樣本數目，特別是區分難度大的負樣本，進一步提高神經網路的表達能力。

3. 進一步實現規模和性能的擴增中面臨的挑戰

（1）“悟道·文溯”發佈並開源了萬億參數模型訓練的基石FastMoE，是首個支援PyTorch框架的高性能MoE（混合專家模型）系統，不再受限于谷歌軟硬體，支援多種硬體，只需一行代碼即可完成MoE化改造，相比傳統PyTorch實現，模型訓練速度提升47倍；

（2）“悟道·文瀾”可以方便地把圖像和文本的編碼器替換成最先進的單模態預訓練模型，隨即達到增大模型表達能力的目的，在預測階段，速度是UNITER模型的20倍，容易部署。

4. 建設並開放了全球最大中文語料數據庫WuDaoCorpora

WuDaoCorpora數據集的數據規模達2TB，超出之前全球最大的中文語料庫CLUECorpus2020十倍以上，同時著重去除了數據中包含的隱私資訊，防止了隱私洩露。另外，WuDaoCorpora的數據來源豐富，包括新聞諮詢、評論、百科、論壇、部落格、學術論文等，使得該數據集能夠適用於不同種類的自然語言處理任務，訓練出的模型泛化性更強。此外，WuDaoCorpora數據標簽的完備性較高，語料中包含醫療、法律、金融等領域標簽，可以依據需求抽取某個特定領域的數據，用於訓練該領域的模型，也可以用於對大模型進行微調，構建某一特定領域的應用。

該數據集不僅為“悟道”項目提供了數據支撐，還可被用於中文自然語言處理領域的多種任務模型訓練，包括文本生成模型、詞嵌入模型、問答對話模型等，對於國際自然語言處理領域的發展將有著積極的促進作用。

應用生態“三步走”：探索“悟道”大模型生態發展

在模型研發的同時，智源研究院也在同步探索“悟道”模型的應用生態建設模式。據唐傑教授介紹，後續“悟道”模型將以開放API（應用程式介面）的形式對外提供服務，用戶通過申請並經授權後可以基於模型API開發各類智慧化應用。另外，也會開源模型的社區版本，服務我國AI科研發展。

據唐傑教授介紹，下一步，“悟道”模型應用生態建設分為三個主要階段，分別關注示範應用、API生態及社區運營維護等。第一階段為示範性應用搭建，將構建面向電子商務、智慧文本服務、垂直領域以及數個獨立的示範性應用，將開放幾個高品質的應用Demo，支援用戶在平臺頁面上使用及測試。第二階段為API及平臺生態構建，將設計多個API，支援對模型的不同請求方式，構建支援高併發、高速推理的API介面，分別支援企業級用戶、個人獨立開發者對模型或特定功能的請求。第三階段為社區運營及迭代，將逐步增量擴大線上評測，構建開發者及使用者社區，建立完善的使用反饋機制，並作為模型迭代的參考標準，同時加強社區維護及管理，加快模型迭代。

目前，智源研究院已啟動第一階段的示範性應用搭建，正與快手、搜狗、360、阿裏、智譜華章、一覽群智、迴圈智慧、新華社等機構就模型的應用進行洽談，聯合構建一批工業級示範性應用。

下一步，智源研究院將加強用戶的開發，做好用戶服務，與AI龍頭企業共同研發更多工業級示範性應用，並將加快推動API生態構建及社區運營迭代工作，通過舉辦學術交流、技術挑戰賽等活動提高“悟道”模型的影響力，吸引更多AI企業、研究機構、個人開發者等開展基於模型的應用開發工作，推動構建國際領先的超大規模智慧模型應用生態。

客戶端中查看

手機中查看