您的位置: 技術市場>人工智慧>

多模態人工智慧正大步走向場景應用新階段

發佈時間:2022-10-10 11:55:19  |  來源:科技日報  |  作者:李詔宇  |  責任編輯:徐麗麗

近日,以“共創産業智慧新高度”為主題的多模態人工智慧産業聯合體第二次會議在武漢召開,會上發佈了由中國科學院自動化研究所、武漢人工智慧研究院、華為技術有限公司牽頭的《多模態基礎大模型技術白皮書》。


“當前,人工智慧正從單模態、有監督學習,邁向多模態、自監督學習的時代。”中國科學院自動化研究所研究員、武漢人工智慧研究院院長王金橋表示,“多模態人工智慧的未來必將風光無限。”


對數據標注的依賴性降低了一個數量級以上


要了解多模態人工智慧,首先需要明白何為模態,“一般來説,每一種資訊的來源或者形式,都可以稱為一種模態。”王金橋説。


人類在資訊獲取、環境感知、知識學習與表達等方面都是採用多模態的輸入、輸出方式。比如,如果一個人要在一片草坪上找到一朵盛開的花朵,既可以通過視覺這一模態來尋找,也就是直接用眼睛看;也可以通過嗅覺這一模態來搜索,也就是用鼻子聞;還可以通過觸覺這一模態來探尋,也就是用手觸摸。面對尋找花朵這個問題,一般來説,人們會採取視覺、嗅覺等多模態的方式來進行。“某種程度上説,多模態的輸入、輸出方式正是人類智慧的重要體現之一。”王金橋表示。


目前的網路數據包括圖像、視頻、文字、音頻等不同模態。對於人工智慧來説,要想更好地掌握、分析、利用網路上的數據,就需要能夠對這些多模態的數據進行系統的統籌和分析。


王金橋表示:“技術創新是推動多模態人工智慧産業發展的重要動力之一。自20世紀70年代多模態學習起步以來,伴隨著近年來生成式預訓練、基於Transformer的雙向編碼器表達等大規模預訓練模型的快速涌現,人工智慧研究領域正在經歷一場有監督學習向無監督學習條件下‘大數據+大模型’的大規模預訓練範式轉變,多模態人工智慧發展迎來了新的巔峰。”


近年來,多模態人工智慧在場景泛化性、對數據的依賴性等方面都取得了巨大的技術突破。


“多模態人工智慧通過自監督的學習方式對海量無標注數據進行學習,同時面向特定任務場景進行小數據的標注學習和微調。相對於單模態人工智慧,其對數據標注的依賴性降低了一個數量級以上。”王金橋説。


“多模態大模型+小模型”模式或成主流


2017年,國務院制發《新一代人工智慧發展規劃》,由人工智慧技術引發的産業變革正在加速演進。目前,各行各業利用人工智慧技術打造的産業新應用、新業態、新模式不斷涌現,我國的人工智慧産業化勢頭迅猛,多模態人工智慧産業也取得了許多突破。


如今,多模態人工智慧産業正大步走向場景化、實用化。“目前,模型參數與數據規模不再是各研發機構的比拼重點,多模態人工智慧産業正在走向場景應用的新階段。”王金橋表示。


“例如,‘全媒體多模態大模型’就是基於中國科學院自動化研究所‘聞海’多模態媒體大數據和‘紫東太初’三模態大模型的技術積累,結合新華社全媒體的海量數據積累和媒體融合業務場景而建立的。‘全媒體多模態大模型’將加速推動人工智慧在視頻配音、語音播報、標題摘要、海報創作等多元媒體業務場景的應用。”王金橋説。


此外,在智慧城市、金融科技、民生服務等許多領域,多模態人工智慧也有著廣闊的應用場景。


王金橋表示,未來“多模態大模型+小模型”的模式或將成為多模態人工智慧的主流,該模式可以有效解決需求碎片化、多樣化等問題。


王金橋表示,我國應該打造工業化範式的多模態大模型生態,持續完善國産基礎軟硬體支撐體系,加大人工智慧與醫學、材料、氣候等科學研究領域的結合力度,健全人工智慧産業應用政策標準,大力培養人工智慧複合型人才。


 
分享到:
0