近日,崑崙萬維攜手北京智源人工智慧研究院、新加坡南洋理工大學、北京大學等頂尖名校機構,提出通用電腦控制框架Cradle,使AI Agent無需訓練便能像人一樣直接控制鍵盤滑鼠,不依賴任何內部API,實現任意開閉源軟體交互。
Cradle是迄今為止第一個既能玩多種商業遊戲又能操作各種軟體應用的AI框架,其論文、項目、代碼均已開源。
Cradle不僅能夠在遊戲《荒野大鏢客2》中完成長達40分鐘的主線任務,在《星露穀物語》中清理農場、種地、購物,在《城市天際線》中建造出千人小鎮,在《當鋪人生2》中和客戶討價還價,最高獲得87%的周收益率;還能夠用Chrome瀏覽網頁、用Outlook發送郵件、用飛書辦公;甚至能用美圖秀秀修圖,用剪映剪輯視頻,成為真正的全能AI Agent。
GCC:通用電腦控制
隨著大模型的發展,越來越多的智慧體(AI Agents)研究關注電腦控制,包括瀏覽網頁、操作智慧手機、玩遊戲等。然而,已有研究依賴軟體內部API獲取輸入,並輸出預先定義好的動作,無法真正像人類一樣通過眼、腦、手的配合操控電腦。
要構建能完成電腦上一切任務的通用智慧體,必須使用最通用和最標準的輸入輸出與電腦進行交互。因此,通用電腦控制使用統一的輸入和輸出,從而讓智慧體的通用性變為可能。
但通用性帶來了操作上的難度:
(1)使用電腦螢幕作為輸入對智慧體的視頻理解能力提出了更高的要求,例如由於沒有內部API,需要通過視覺資訊判斷動作是否執行成功;
(2)使用鍵盤和滑鼠操作作為輸出使得智慧體需要更高的時空操作精度,比如鍵盤按鍵和滑鼠點擊通常額外涉及時間維度;
(3)許多電腦上的複雜任務往往需要連續執行成百上千次的正確操作才能完成,是智慧體的長程規劃決策和歷史資訊維護處理能力的一大挑戰;
(4)虛擬世界中多如繁星的環境和任務是對智慧體高效探索並自我提升實現通用性的一大考驗。
這些難題成為了構建通用電腦控制智慧體(GCC Agents)的挑戰。
六大模組,三大環節
Cradle一共由6個模組組成:資訊收集、自我反思、任務推斷、技能管理、行動規劃,以及記憶模組。
Cradle高度的通用性來源於其對和電腦交互過程中的原始輸入輸出的合理封裝和抽象,以從螢幕中顯示的視頻圖像作為輸入,提取其中的文本和視覺資訊進行決策,並且輸出最底層的作業系統中控制鍵盤和滑鼠的信號去和電腦交互,使得其可以不依賴於任何假設和任何內部API進行交互。
同時,Cradle強大的決策推理模組讓其得以自發和軟體進行交互並且完成任務,這個過程可以被簡單地總結為:反思過去,總結現在,規劃未來。
反思過去:Cradle使用執行過往動作過程的視頻作為輸入,分別提取出其中關鍵的文本和視覺資訊,通過反思來判斷上一步動作是否執行成功任務是否完成以及如何改進。
總結現在:反思完之後,Cradle需要總結當前情況,並且以此為根據來決定是否更換任務目標或是修改任務內容。
規劃未來:最後Cradle會根據當前任務以及現狀生成或者更新自身的技能,並且從已經學會的技能中檢索一部分和當前任務相關的技能作為備選,然後從中選取合適的技能實例化為動作去執行。
在決策推理的同時,Cradle還會週期性地總結和維護儲存在情境記憶中的歷史資訊以及儲存在週期性記憶中的技能。在此過程中,Cradle為其添加了記憶,總結和反思的功能,進一步提升了其對於決策過程中的觀察和行為的理解。
Cradle能直接根據遊戲內的提示和教程或是自我探索的方式生成對應的操作鍵鼠的可執行代碼作為技能,一步步豐富自己的技能庫,並在之後的遊戲中重復使用這些技能。
遊戲辦公全精通
為了驗證Cradle的通用性,研究者們選擇了4款風格迥異,操作各不相同的經典遊戲進行測試,從第三視角的3D角色扮演類遊戲《荒野大鏢客2》到2D固定視角的模擬經營類遊戲《星露穀物語》到俯視角的城市規劃類遊戲《城市天際線》再到側重交易策略的模擬經營類遊戲《當鋪人生2》,並分別設計了不同的任務。
在通用軟體方面,Cradle團隊也同樣選擇了5款常用軟體進行測試,包括Chrome、Outlook、CapCut(剪映)、Meitu(美圖秀秀)和Feishu(飛書)。
Cradle在《荒野大鏢客2》的主線劇情任務以及開放世界任務中均有出色表現,能夠連續完成長達40分鐘的2個完整主線任務,騎馬、戰鬥、購物樣樣在行。
Cradle在其他遊戲任務中均能勝任。在《城市天際線》中修路、保障水電供應,合理劃分居民、商業和工業區,建立起千人小鎮;在《星露穀物語》中清理農場雜物、種地收穫作物、購買種子;在《當鋪人生2》中在和客戶討價還價近2輪後以93.6%的交易成功率達成了平均39.6%的周收益率。
Cradle在日常軟體應用的各項任務執行上表現不俗,如論文下載、發郵件、修圖、剪視頻、發送飛書文件等。
同時,Cradle在非常有挑戰性的benchmark OSWorld上也同樣擊敗了使用真值作為標簽的基線方法。
最後,Cradle也同樣擊敗了眾多常見基線方法,證明了框架各個模組的合理性和必要性。
通往AGI之路
此前,大量關於AI智慧體的研究都依賴於電腦內部API的資訊獲取,無法讓AI真正“像人類一樣”通過眼、腦、手的配合與電腦進行互動,其環境、行為、動作都相對固定,難以實現跨軟體、跨平臺的通用智慧。
Cradle極大程度地擴展了智慧體可以交互的範圍,並且證明了將一切軟體轉化為測試智慧體不同能力的testbed的可能性,其所提出的通用電腦控制的設定統一了輸入輸出的介面,促進了統一粒度數據的蒐集,為未來Agent在各個環境中交互並且自我提升打下了堅實的基礎。
面向數字世界的通用人工智慧,正在加速到來。
(責任編輯:張紫祎)