7月4日,2024世界人工智慧大會暨人工智慧全球治理高級別會議正式開幕。高通公司中國區研發負責人徐晧出席“AI賦工業,數智啟未來”人工智慧賦能新型工業化主題論壇併發表主題演講,探討AI如何為工業生産注入智慧化的基因,實現高品質發展,推動人工智慧技術在工業領域應用。
徐晧表示,異構計算、量化壓縮等技術手段能幫助雲端大模型落地終端,從而賦能廣泛的工業應用。5G與AI相結合,將助力打造更加智慧的工業環境。以工業場景中的機器人用例為例,現在的機器人主要利用電腦視覺或者深度學習完成理解和功能執行。隨著生成式AI突破性的發展,未來機器人能夠理解我們提出的要求,加上機器人學科實現的出色定位、導航和機械臂控制,可以打造非常智慧的應用。結合5G與AI,機器人能夠實現網路連接,賦能運維和質檢等生産環節,打造更加智慧和現代化的工業環境。
以下為演講全文:
大家好。剛才的嘉賓分享了行業應用,我想分享一下更底層的演算法設計,以及我們如何從終端側把AI普及到人們的日常生活中。今天論壇的主題是人工智慧賦能新型工業化,因此最後我會分享一些工業應用上的AI用例。
生成式AI的能力在不斷增強,主要體現在以下方面:
●語音UI,我們有更多更智慧的語音支援,帶來自然直觀交互;
●多模態大模型,除了早期與ChatGPT進行的文字對話,現在我們看到了更多的視頻/圖像處理,以及圖像/文字的共同處理;
●在視頻和3D方面,我們有更多的沉浸式體驗;
●更長的上下文窗口,現在有越來越長的文章甚至於一整本書,都可以用AI處理一次性總結出來;
●個性化,終端側的AI應用可以帶來更加個性化的內容處理;
●智慧體,人們可以根據自己的喜好來打造個人AI智慧體;
●最後,現在可以看到越來越多由AI增強的高清晰度圖像和視頻。
此前,我們帶來了全球首個運作在Android手機上的Stable Diffusion終端側演示,最近,我們還實現了全球首個在Android手機上運作的多模態大模型(LMM)演示。比如用戶可以給冰箱裏的食材拍一張照片,然後問大語言模型“你看到了什麼?”,AI可以很快地識別所有物體。然後用戶可以接著問“基於這些食材,請給我推薦一個菜譜”,AI就可以把菜譜展示出來。這比最開始我們僅僅能問AI“今天天氣怎麼樣”或者“給我講一個笑話”要好很多。這個是我們在手機端或者用戶端,看到大語言模型以及多模態模型能夠支援的更多用例。
從技術上來説,哪些是我們把大語言模型應用落地到端側必須實現的核心技術?首先,很多最基本的大語言模型都是10億甚至30億以上的參數規模,這種規模的模型想要在手機上應用其實具有一定挑戰。所以,我們需要把雲端的大模型演算法,通過最簡單、最有效且最節能地方式部署在手機和其他智慧終端上。如果我們的手機能夠做一些最基本的生成式AI運算支援,這要比把所有的照片和視頻都傳到雲端運算再傳回來更高效、更安全。
正如當年的雲計算與在手機和電腦上計算類似,現在的大語言模型能夠在雲端運作,今後我們希望同樣的模型能夠在手機、個人電腦、機器人、汽車上運作。通過量化和壓縮、推測性解碼、知識提煉、高效的圖像和視頻架構以及異構計算這5個重要的技術手段,能夠幫助把雲端的大模型,包括Llama、ChatGPT以及國內一系列大模型落地到終端,賦能包括工業應用、手機/平板電腦應用等等。
舉幾個簡單的例子。首先是量化,量化對於能耗、運算和存儲都有很大影響,比如把32位浮點變成16位定點,看起來只是減少了兩倍,但實際上,存儲數據時佔用的記憶體更少、傳輸數據量也更少、無論是加法還是乘法的運算量也更少,所以僅僅是從32位變成16位,就會帶來4倍的能耗減少。從32位到8位,能帶來16倍的能耗減少;從32位到4位,能帶來64倍的能耗減少。這也是為什麼所有的人工智慧演算法公司都在想辦法把浮點變成定點,因為這會讓運算的存儲和數據的傳輸更簡潔。
對於每一個類似的技術方向,我們都在積極努力嘗試。比如,你可以先訓練再量化;或者在訓練的時候直接考慮量化的影響。
接下來是知識提煉。我們可以將其看成“教師”和“學生”的關係。比如可以將一個大模型想像成一個非常厲害的教授或者院士,但是往往在你的手機上,只需要一個小學生模型就能處理事情。比如我們只問它“冰箱裏有多少菜”,小學生就能回答這個問題。如果大多數問題都在這個級別,你的手機只需一個“小學生模型”即可。知識提煉即可以通過對“教師模型”的學習,將其改為一個“小學生模型”,這個模型在手機端很容易運作。
接下來是推測性解碼。比如這個大語言模型一次只能解碼1個token,如果能用小模型,在同樣的時間和算力的情況下,可能可以生成4個token。用一個小模型生成多個不太準確的token,然後把這些token直接送給大模型一次檢查並決定接受哪些token,這就比完全由大模型一個一個生成token要高效很多。這個就叫做推測性解碼。
下面是我們現在做的規劃器(Orchestrator)。如果用戶告訴他的手機“我今天要從上海飛到北京,請幫我搜尋我需要的航班和酒店”,那麼手機需要調用不同的程式。由於現在不存在能夠把所有需求都安排好的一個程式,因此就需要智慧體作為一個底層架構,把所需的程式調用起來、把所需的資源放在一起,然後安排可以滿足用戶需求的功能。這就是在最基本的底層方面,我們對智慧體進行的支援。
接下來,我將介紹一下在機器人方面有哪些具體的AI應用。我們看到,現在的機器人大多數時候都是利用電腦視覺或者深度學習完成理解和功能執行。但是,隨著近兩三年來大語言模型突破性的發展,實際上機器人是能夠理解我們對它提出的一些最基本的要求,那麼它把“理解”這一環節解決之後,其他功能就更容易實現了。
機器人的大腦可以使用大語言模型,加上機器人學科實現的出色定位、導航和機械臂控制,可以打造非常智慧的應用。結合5G與AI,機器人能夠實現網路連接,賦能運維和質檢等生産環節,從而打造更加智慧和現代化的工業環境。在這樣的工業環境中,我們可以進行實時數據分析、供應鏈優化、高可靠性智慧控制並帶來生産靈活性。我們看到在人工智慧和5G的加持下,智慧生産環境在中國及全球範圍內可以得到日益廣泛的推廣。
最後,這是我們近期做的一個AI服務機器人展示。我們如果告訴機器人“我想喝水”或是“我口渴”,機器人會提供不同的飲料選擇,當用戶選擇之後,機器人可以走到房間另一側,識別出用戶想要的飲料,比如水、茶或是可樂,然後拿給用戶。像這樣由人工智慧驅動的機器人,已經可以在日常生活中實現類似的操作。
未來,我們會看到越來越多這樣的應用場景,我們希望人工智慧不僅是在雲端運作大語言模型、也希望這些人工智慧演算法能夠落地到終端,落地到手機、個人電腦、機器人、汽車、XR眼鏡等等,創造出更豐富多彩的應用場景。謝謝大家。