AI從“一專一能”邁向“多專多能”

發佈時間：2022-09-20 09:00:00 | 來源：科技日報 | 作者：李詔宇 | 責任編輯：徐麗麗

“紫東太初”是全球首個圖、文、音三模態大模型，開創性地實現了圖像、文本、語音三模態數據間的“統一表示”與“相互生成”，實現了“以圖生音”和“以音生圖”，理解和生成能力更接近人類，為打造多模態人工智慧行業應用提供創新基礎，向通用人工智慧邁出了重要一步。

近日，2022世界人工智慧大會在上海舉行，由武漢人工智慧研究院、中國科學院自動化研究所和華為技術有限公司聯合研發的“紫東太初”多模態大模型項目獲得了此次大會的最高獎項。“此次大會的‘智聯世界，元生無界’主題，恰好揭示了人類智慧未來發展的兩大方向，智聯世界代表弱人工智慧對物理世界的作用及改造，而元生無界則代表著利用人工智慧技術構建元宇宙，實現虛實融合的新型世界。”中國電腦行業協會數據安全專業委員會委員、北京理工大學網路與安全研究所所長閆懷志説。

中國科學院自動化研究所研究員、武漢人工智慧研究院院長王金橋表示，“紫東太初”是全球首個圖、文、音三模態大模型，開創性地實現了圖像、文本、語音三模態數據間的“統一表示”與“相互生成”，實現了“以圖生音”和“以音生圖”，理解和生成能力更接近人類，為打造多模態人工智慧行業應用提供創新基礎，向通用人工智慧邁出了重要一步。

“紫東太初”具備部分類腦特性

在閆懷志看來，通用人工智慧旨在製造出像人類一樣思考、像人類一樣擁有全面智慧、能夠從事多類型工作的機器，因此又被稱為強人工智慧。目前的人工智慧充其量只是承襲了人類的認知結果，遠未形成不同感官之間的、相互確定的認知能力。

傳統的人工智慧，比如大名鼎鼎的阿爾法圍棋（AlphaGo），在一些領域內已經“孤獨求敗”。不過，北京德火科技有限責任公司技術總監李岩表示，現階段許多行業內應用的人工智慧技術仍處於比較初級的階段，與科幻電影中設想的各類人工智慧應用還相去甚遠。

在王金橋看來，人工智慧一路發展至今，雖然取得了許多突破與進步，但仍存在三大主要局限：首先，人工智慧模型的功能單一，一個模型只能解決一個任務；其次，人工智慧模型的訓練依賴於大量的樣本，如果缺乏足夠的樣本支撐，訓練也就無從談起。以訓練人臉識別數據庫Webface為例，需要2.6億張圖片才能訓練出一個可用的模型；最後，人工智慧模型的泛化能力差，不能應用於廣泛的應用場景。

“我們一直以來都在追求如何解決當前人工智慧‘一專一用’的問題，基於自監督學習的多模態預訓練模型是當前的一個重要發展路徑。”王金橋説。

自監督學習指的是從大規模的無監督數據中挖掘隱含的監督資訊進行訓練，從而得到對下游任務有價值的表徵，相比于傳統的深度學習，是更接近人類的學習方式。

“能否在同一個維度、同一個空間，面對不同的場景提供同一個多模態大模型，擺脫‘一專一能’，是實現人工智慧通用化的基礎。”王金橋説。“紫東太初”可以將圖像、文本、語音等不同模態數據實現跨模態的統一表徵和學習，突破了當前AI技術局限，具備部分類腦特性，從“一專一能”邁向“多專多能”。

閆懷志指出：“本質上，‘以圖生音’和‘以音生圖’仍然是一種基於數據的人工智慧，但它更接近於人類的理解和思考方式，因此可以被視為從弱人工智慧向通用人工智慧邁進的重要基礎性工作。”

實現三模態內容的統一與重現

曾經，“以圖生音”和“以音生圖”只是幻想，而如今的“紫東太初”卻讓這兩者成為了現實。“以圖生音”和“以音生圖”究竟是如何實現的？實現圖、文、音三模態轉化的真正關鍵以及底層邏輯是什麼？

據悉，“紫東太初”三模態間的相互轉換和生成，其核心原理是視覺、文本、語音不同模態通過各自編碼器映射到統一語義空間，然後通過多頭自注意力機制學習模態之間的語義關聯以及特徵對齊，形成多模態統一知識表示；之後，再利用編碼後的多模態特徵，通過解碼器分別生成文本、圖像和語音。

王金橋表示：“通俗地説，‘紫東太初’就是將形式各不相同的三模態內容轉化為一個統一的多模態知識表示，之後再次利用這種知識表示重新生成三模態內容，以此實現‘以圖生音’和‘以音生圖’。”

同時，王金橋還表示，“紫東太初”憑藉四大突破，有效助力以多模態認知為核心的通用人工智慧發展。

具體來説，一是首次提出多層次、多任務跨模態自監督學習框架，支援從詞條級走向模態級、樣本級的三級預訓練自監督學習方式；二是首次完成弱關聯多模態數據語義統一表示，減少數據收集與清洗代價；三是首次實現多模態理解與生成任務的統一建模，支援跨模態檢索、多模態分類、語音識別、圖像生成等理解與生成任務；四是首次實現無監督超越有監督方法，基於5%—10%的數據標注，實現100%的有監督學習效果。

打造典型人工智慧行業應用

“與單模態和圖文兩模態相比，‘紫東太初’採用圖、文、音三模態大模型，可以靈活支撐全場景的人工智慧應用。”王金橋説，“‘紫東太初’還具有在無監督情況下多任務聯合學習以及不同領域數據快速遷移的強大能力。引入語音模態後的多模態預訓練模型，可實現共性圖文音語義空間表徵和利用，並突破性地直接實現三模態的統一表示，對更廣泛、更多樣的下游任務提供模型基礎支撐。”

“目前，我們已經整合了産學研用各方面的資源，打造了一系列典型的人工智慧行業應用。”王金橋説。在智慧製造領域，“紫東太初”可以有效降低模型訓練對於樣本數量的依賴，同時提升演算法性能。

“紫東太初”還與杭州移動共同打造了為杭州文旅代言的智慧文旅虛擬人“杭小憶”。“紫東太初”的多模態對話支援南宋禦街場景陶瓷、絲綢、活字印刷、特色小吃等場景化數據的增量訓練，助力南宋禦街的導遊、導購人工智慧數字人實現語音識別、中文對話、語音交互、以音生圖等功能。

[列印] [收藏] [發表評論]

分享到: