即將過去的2022年,對於人工智慧來説是值得銘記的一年。大批人工智慧相關應用走出實驗室,向著大範圍落地實踐不斷邁進。AI“黑科技”加持下的北京冬奧會異彩紛呈;無人駕駛開啟多城試點,未來交通更進一步;AI繪畫以假亂真令人著迷,藝術創作或許不再是人類專屬……
無論是底層技術不斷突破,還是各類應用百花齊放,在過去的一年,人工智慧向我們展示了它的無限可能。我們相信這只是人工智慧的冰山一角,未來它還有更多潛力等待我們去挖掘。
隨著技術的不斷成熟,落地應用不斷創新,人工智慧或將真正改變你我的生活。
AI“黑科技”照亮北京冬奧會
助力天氣預報、比賽轉播和手語播報等
2月4日,全球矚目的2022年北京冬奧會正式拉開帷幕。人工智慧等技術的應用為本屆冬奧會增添了別樣的“科技之美”。
在此次冬奧會上,由中國科學院院士、北京大學副校長、北京大學重慶大數據研究院首席科學家張平文領銜研製的人工智慧MOML演算法賦能天氣預報模型,使冬奧會天氣預報更加精準。人工智慧演算法在融合、處理資訊中的先天優勢,使其在一定程度上可以代替預報員在會商中進行資訊整合、分析,通過數據挖掘與學習,將預報員的經驗內化在演算法中,在提高天氣預報效率的同時,也進一步提高了預報的準確率。
在本屆冬奧會自由式滑雪女子大跳臺決賽中,中國選手谷愛淩以“逆天”的精彩表現獲得個人首金。在比賽轉播過程中,百度智慧雲通過“3D+AI”技術打造出的“同場競技”系統,將單人比賽項目變成“多人比賽”,實現冠、亞軍比賽畫面的三維恢復和虛擬疊加,方便觀眾看到不同選手的實時動作;同時,通過技術手段對運動員動作進行量化分析,將滑行速度、騰空高度、落地遠度、旋轉角度等一系列運動數據與原始畫面疊加起來,使觀眾可以更直觀地從流暢性、完成度、難度、多樣性和美觀度等角度看懂選手之間的技術動作差異。
在北京冬奧會開幕的同一天,央視新聞AI手語主播也正式上崗,她在冬奧會新聞播報、賽事直播和現場採訪中,為聽障人士送上了實時手語翻譯服務。憑藉精確的手語翻譯引擎,該AI手語主播可懂度達85%以上,可將冰雪賽事的文字及音視頻內容,快速精準地轉化為手語。
騰訊“混元”AI大模型登頂VCR榜單
展現了其在多模態理解領域的強大實力
5月31日,騰訊“混元”AI大模型在多模態理解領域國際權威榜單VCR(Visual Commonsense Reasoning,視覺常識推理)中登頂,兩個單項成績和總成績均位列第一。這是繼在跨模態檢索領域大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂後,“混元”AI大模型的又一重大突破,展現了其在多模態理解領域的強大實力。
與跨模態理解任務不同的是,多模態理解任務要求電腦除了能夠做到識別層次的感知(如分類檢測等),還需要達到認知層次的感知(如判斷意圖、邏輯推理等)。
此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團隊自主研發,同時借助騰訊太極機器學習平臺的圖形處理器算力和訓練加速框架,在預訓練任務、訓練方式上進行了諸多創新改進和設計,有效提升了模型性能。
截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多個領域的AI權威榜單中取得了第一名的成績,並刷新多項行業歷史紀錄。這意味著,“混元”在自然語言理解、多模態理解、跨模態理解等領域的技術實力已得到驗證。
谷歌工程師鬧烏龍,稱AI存在意識
人工智慧所謂的“人格”更多只是模倣人類罷了
谷歌AI工程師鬧烏龍,稱LaMDA語言模型有意識,引發業界對“AI是否擁有自主意識”的討論。
今年6月,谷歌公司AI工程師萊莫因認為對話應用語言模型LaMDA具有了“自主意識”,並對此出具了長達21頁的證據。萊莫因認為LaMDA具有意識的原因有三:一是LaMDA以前所未有的方式高效、創造性地使用語言;二是它以與人類相似的方式分享感覺;三是它會表達內省和想像——既會擔憂未來,也會追憶過去。
LaMDA是谷歌在2021年開發者大會上公佈的大型自然語言對話模型,它可以模擬任何帶有知識屬性的實體,通過“擬人”的方式,在與人類親切自然的對話中為用戶答疑解惑,傳遞更多知識。
萊莫因的觀點和證據引起了業內的廣泛關注。不久後,谷歌發表聲明稱,萊莫因違反了“就業和數據安全政策”,將其解雇。谷歌表示,經過廣泛地審查,他們發現萊莫因關於LaMDA是有生命的説法是完全沒有根據的。
專家普遍認為,當下人工智慧具有的所謂“人格”,更多只是模倣人類的語言風格,有自我意識、有感知能力的AI應該具備能動性,並具有獨特的視角看待人和事,但目前AI還只是人們設計的一個電腦系統,作為工具來做一些特定之事。
全球首個圖、文、音三模態大模型誕生
“紫東太初”實現“以圖生音”和“以音生圖”
9月1日,在上海舉辦的2022世界人工智慧大會上,由武漢人工智慧研究院、中國科學院自動化研究所和華為技術有限公司聯合研發的“紫東太初”多模態大模型項目獲得了此次大會的最高獎項。“紫東太初”是全球首個圖、文、音三模態大模型,開創性地實現了圖像、文本、語音三模態數據間的“統一表示”與“相互生成”,實現了“以圖生音”和“以音生圖”,理解和生成能力更接近人類,為打造多模態人工智慧行業應用提供創新基礎,向通用人工智慧邁出了重要一步。
“紫東太初”三模態間的相互轉換和生成,其核心原理是視覺、文本、語音不同模態通過各自編碼器映射到統一語義空間,然後通過多頭自注意力機制學習模態之間的語義關聯以及特徵對齊,形成多模態統一知識表示;之後,再利用編碼後的多模態特徵,通過解碼器分別生成文本、圖像和語音。
“紫東太初”憑藉四大突破,有效助力以多模態認知為核心的通用人工智慧發展。一是首次提出多層次、多任務跨模態自監督學習框架,支援從詞條級走向模態級、樣本級的三級預訓練自監督學習方式;二是首次完成弱關聯多模態數據語義統一表示,減少數據收集與清洗代價;三是首次實現多模態理解與生成任務的統一建模,支援跨模態檢索、多模態分類、語音識別、圖像生成等理解與生成任務;四是首次實現無監督超越有監督方法,基於5%—10%的數據標注,實現100%的有監督學習效果。
AI打破矩陣乘法計算速度紀錄
解決了50年來數學領域一個懸而未決的問題
10月,英國《自然》雜誌封面以“矩陣遊戲”為題,發表了人工智慧公司“深度思維”團隊的最新發現:AI可以解決矩陣乘法問題。這款名為“AlphaTensor”的AI系統能自行發現新演算法,從而解決了50年來數學領域一個懸而未決的問題——找到兩個矩陣相乘最快的方法。這是第一個可為矩陣乘法等基本任務發現新穎、高效且正確演算法的AI系統。
數學在電腦編程中經常出現,通常作為描述和操縱現實世界現象表示的一種手段。例如,它可用於表示電腦螢幕上的像素、天氣狀況或人工網路中的節點。在這種情況下,使用數學的主要方式之一,就是對矩陣進行計算。矩陣越大,工作量也越大,電腦科學家開始花費大量時間和精力開發更加有效的演算法來完成相關工作。
在此次最新成果中,“深度思維”團隊研究人員探究了是否有可能使用基於強化學習的AI系統來創建新演算法,從而使計算步驟比現有演算法更少。
為了找到答案,他們從遊戲系統中尋找靈感。在構建了一些初步系統之後,研究團隊將重點轉向了樹搜索,這是系統在特定情況下查看各種方案的一種方法。
接下來,研究人員將允許系統創建自己的演算法,進一步提高效率。他們發現,在許多情況下,系統選擇的演算法比人類創建的演算法更好。“深度思維”團隊希望,未來AI能更多地用來幫助攻克數學和科學領域的一些重要的難題。
2022中國人工智慧創新發展指數公佈
全面反映我國人工智慧發展態勢
11月18日,第五屆世界聲博會暨2022科大訊飛全球1024開發者節開幕式上,中國電子資訊産業發展研究院(又稱賽迪研究院)發佈了2022中國人工智慧創新發展指數(合肥指數)。
這是國內首個以地區冠名的全國性人工智慧專題研究成果,旨在全面系統地反映我國人工智慧的發展態勢。中國電子資訊産業發展研究院從發展環境、創新能力、基礎配套、資本投入和産業實力5個維度,構建了中國人工智慧創新發展指數,也就是“合肥指數”的評價體系。
近年來,我國人工智慧步入與經濟深度融合應用新階段,智慧化轉型全面推進,人工智慧産業在全球的影響力不斷增強。2021年,我國人工智慧的研發強度為19.4%,從業人數增加到31萬人,佔全球比重的5.3%。2017年至2021年,我國人工智慧産業規模增長了2.6倍,佔全球比重提升到16.8%。專利申請量佔全球比重持續擴大,從2012年的13%增長到2021年的70.9%。創新能力上,我國人工智慧研發投入力度不斷加大,從業人數不斷增加。
從總體指數來看,北京、廣東和上海處於人工智慧領域的領跑地位,安徽則緊隨其後,排在全國的第6位。合肥已經成為人工智慧領域、科技創新與産業發展最活躍的城市之一。
ESMFold預測六億多種蛋白質結構
預測速度比“阿爾法折疊”快60倍
英國“深度思維”公司8月曾宣佈,其開發的人工智慧程式“阿爾法折疊”已預測出約100萬個物種的超過2億種蛋白質結構,幾乎涵蓋了科學界已編錄的每一種蛋白質結構。但就在今年11月,元宇宙平臺公司(Meta)研究人員利用人工智慧模型ESMFold預測了來自細菌、病毒和其他尚未被表徵微生物的6億多種蛋白質結構。
在此次最新研究中,研究團隊利用大型語言模型來預測這些蛋白質結構。據悉,語言模型通常需要大量文本進行訓練,為將這一模型應用於蛋白質結構預測,研究團隊利用已知的蛋白質序列來訓練它,這些已知的蛋白質可由20個不同氨基酸組成的鏈來表達,每個氨基酸由一個字母表示。然後,ESMFold學會了用模糊的氨基酸比例“自動完成”蛋白質結構預測。
該團隊負責人亞歷山大·裏維斯表示,這些訓練讓ESMFold對包含蛋白質形狀資訊的蛋白質序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一模型能將這些了解到的資訊與已知蛋白質結構和序列之間的關係資訊結合,生成預測結構。
團隊指出,ESMFold的預測雖然不像“阿爾法折疊”那麼準確,但在預測速度上要快60倍,這意味著它可將結構預測數據庫擴展到更大。
首創蛋白質動態結構AI建模方法
對理解生命過程、研發新型藥物有著重要意義
12月8日,西湖大學公佈了該校人工智慧講席教授李子青糰隊聯合廈門大學、杭州德睿智藥科技有限公司首創研發的能夠刻畫蛋白質構象變化與親和力預測的AI模型——ProtMD。這是第一個嘗試解析蛋白質動態構象的人工智慧模型,可輔助藥物化學專家更加精準地篩選出高活性小分子,從而加速臨床前藥物研發。
此前谷歌旗下公司研發的“阿爾法折疊2”能夠利用人工智慧準確預測蛋白質的三維結構,對結構生物學、藥物設計乃至整個科學界都産生了巨大影響。但“阿爾法折疊2”只能預測蛋白質在一個瞬間的靜態結構,尚未能解決蛋白質結構動態變化的預測。李子青糰隊此次開發的AI模型,在給定藥物分子和靶點蛋白的情況下,可預測藥物分子與生物體內靶點蛋白質結合(柔性對接)後蛋白質結構的變化過程,推斷藥物與靶標蛋白結合的穩定性,預測藥物功能,從而提升AI藥物設計的精度和效率。
李子青表示,預測蛋白質結構的動態變化對理解生命過程、研發新型藥物都有著十分重要的意義。尤其在AI藥物設計中,通過對藥物分子與靶點蛋白結合後的動態結構變化進行預測,評估藥物—靶點結合親和力和藥物效果,是提高AI藥物篩選準確性和效能的重要思路。
多城市推動自動駕駛行業發展
我國自動駕駛行業正式向L3級邁進
2022年是自動駕駛行業具有里程碑意義的一年,有關政策密集出臺,相關應用從研發測試走向大規模商業化試點。當前,全國近30個城市已累計為80余家企業發放了超過1000張道路測試牌照,允許高等級智慧網聯汽車在特定場景、特殊區域內開展規模化載人載物測試示範。越來越多的城市正在推進更高等級的自動駕駛商業化。
今年8月1日,《深圳經濟特區智慧網聯汽車管理條例》開始實行,該條例提出L3級自動駕駛在行政區全域開放道路測試、示範應用,探索開展商業化運營試點,標誌著我國自動駕駛行業正式向L3級邁進。
此後,重慶、武漢等地政府部門也先後發佈了自動駕駛全無人商業化試點政策,並向百度發放全國首批無人化示範運營資格,允許車內無安全員的自動駕駛車輛在社會道路上開展商業化服務。
此外,為推動智慧網聯汽車産業健康有序發展,工業和資訊化部會同公安部還組織起草了《關於開展智慧網聯汽車準入和上路通行試點工作的通知(徵求意見稿)》,擬遴選符合條件的道路機動車輛生産企業和具備量産條件的搭載自動駕駛功能的智慧網聯汽車産品,開展準入試點;對通過準入試點的智慧網聯汽車産品,在試點城市的限定公共道路區域內開展上路通行試點。
AI繪畫火了,AIGC元年開啟
未來預計能夠産生萬億級經濟價值
今年8月,在美國科羅拉多州舉辦的新興數字藝術家競賽中,參賽者傑森·艾倫提交的AIGC繪畫作品——《太空歌劇院》,獲得了此次比賽“數字藝術/數字修飾照片”類別一等獎。沒有繪畫基礎的傑森·艾倫借用了一款名叫Midjourney的AI繪圖工具,通過一個類似“文字遊戲”的過程,輸入題材、光線、場景、角度、氛圍等有關畫面效果的關鍵詞後,得到了初始作品,並在反覆調整和修改後最終完成了這組“太空歌劇院”數字藝術作品。
這一年,AI繪畫小程式、網站等開始迅猛增長,而美圖秀秀、抖音等軟體也加入了AI畫圖功能。抖音平臺數據顯示,截至12月6日,已有超2428.4萬人使用該特效,迅速飆升至特效潮流榜第一位。AI繪畫的百度指數也從日均兩三千上升到日均3萬,火爆程度可見一斑。
AI繪畫的火爆也讓AIGC這一概念逐漸進入大眾視野。
所謂AIGC(AI Generated Content),即基於人工智慧技術自動生成內容的新型生産範式。其技術主要涉及兩個方面:自然語言處理(NLP)和AIGC生成演算法。其中,自然語言處理是實現人與電腦之間通過自然語言進行交互的手段。
最初,AIGC可生成的內容形式以文字為主,經過2022年指數級的發展,目前AIGC技術可生成的內容形式已經拓展到了包括文字、圖像、視頻、語音、代碼、機器人動作等多種內容形式,2022年也因此被稱為“AIGC元年”。生成式AI讓機器開始大規模涉足知識類和創造性工作,未來預計能夠産生數萬億美元的經濟價值。