您的位置: 技術市場>人工智慧>

人工智慧再次戰勝人類玩家

發佈時間:2022-12-06 13:30:45  |  來源:中國科學報  |  作者:徐銳  |  責任編輯:徐麗麗

下棋、玩遊戲,在與人類的博弈中,人工智慧(AI)正在不斷成長。近日,英國DeepMind公司的AI智慧體DeepNash,就在西洋陸軍棋(Stratego)中達到了專業級人類玩家的水準。該成果12月1日發表于《科學》。


事實上,在DeepNash攻克Stratego前,就有報道稱AI能夠玩“強權外交”這款類似的經典桌遊。這是一款具有外交深度的遊戲,玩家間存在合作與競爭關係,必要時須通過談判結交盟友。


“近年來,AI掌握本質不同的遊戲的速度相當驚人。”美國密歇根大學電腦科學家Michael Wellman表示,Stratego和“強權外交”這兩款遊戲大不相同,但它們都極具挑戰性,與此前AI已經掌握的遊戲也截然不同。


Stratego是一款需在資訊缺失情況下進行戰略思考的棋盤遊戲,類似于中國的軍棋。它要比此前AI掌握的西洋棋、圍棋或撲剋復雜得多。


在遊戲中,雙方各有40枚棋子,且彼此看不到棋子的真實“身份”。雙方輪流移動棋子,來消滅對手的棋子,最終奪得對方軍旗或消滅所有能動的棋子的一方獲勝。因此,玩家需要進行戰略部署、收集資訊,並與對方博弈。


一局Stratego遊戲中會有10535種可能的佈局。相比之下,圍棋的佈局有10360種可能。此外,在Stratego中,AI需要推理對手超過1066種部署策略,這使德州撲克中初始的106種可能情況相形見絀。


“Stratego中可能出現的結果數量之多及其複雜性,意味著在資訊完全的遊戲中表現出色的演算法,甚至在撲克遊戲中表現良好的演算法,在這款遊戲中都不起作用。”DeepMind研究員Julien Perolat説。


所以Perolat和同事開發了DeepNash,該命名致敬了提出納什均衡的美國數學家約翰·納什。


納什均衡是博弈論中一種解的概念,指滿足以下條件的策略組合:任何一位玩家在此策略組合下單方面改變自己的策略(其他玩家策略不變),都不會提高自身的收益。


DeepNash將強化學習演算法與深度神經網路相結合,以找到納什均衡。強化學習包括為遊戲的每個狀態找到最佳策略。為了學習最佳策略,DeepNash已經與自己進行了55億次博弈。


今年4月,DeepNash在網路遊戲平臺Gravon上與人類Stratego玩家進行了兩周的比賽。在50場比賽後,DeepNash目前在所有Gravon Stratego玩家中排名第三。


“我們的研究表明,像Stratego這樣複雜的涉及不完善資訊的遊戲,不需要通過搜索技術來解決。”團隊成員、DeepMind研究員Karl Tuyls表示,“這是AI邁出的一大步。”


而曾于2019年報告了玩撲克的AI——Pluribus的Meta AI研究員Noam Brown團隊,則將目光投向了一個不同的挑戰:建立一個可以玩“強權外交”的AI。


“強權外交”是一個最多可由7位玩家參與的遊戲,每位玩家代表第一次世界大戰前歐洲的主要力量,遊戲目標是通過移動部隊控制供應中心。重要的是,該遊戲需要玩家間進行私人交流和合作,而不是像圍棋或Stratego那樣進行雙人博弈。


“當進行超過兩人的零和博弈時,納什均衡思想對遊戲就不再有用了。”Brown説,他們成功訓練出了AI——Cicero。在11月22日發表于《科學》的論文中,該團隊報告稱,在40場遊戲中,“Cicero的平均得分是人類玩家的兩倍多,在玩過一場以上游戲的參與者中排名前10%”。


Brown認為,可以與人類互動並解釋次優甚至非理性人類行為的遊戲AI,可以為其在現實世界的應用鋪平道路。


 
分享到:
0