近日,崑崙萬維攜手新加坡南洋理工大學成功開發了一個名為Q*的演算法,能夠顯著提升現有大模型的推理能力。在GSM8K數據集上,Q*幫助Llama-2-7b提升至80.8%的準確率,超越了ChatGPT;在MATH數據集上,Q*幫助DeepSeek-Math-7b提升至55.4%的準確率,超越了Gemini Ultra;在MBPP數據集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率,縮小了與GPT-4的編程水準差距。
Q*能夠幫助小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力,這一演算法不僅大幅提升了小模型的性能,還顯著降低了計算資源的需求,為人工智慧的廣泛應用帶來了全新可能,開創了高效智慧的新紀元。
項目論文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已公開發佈。
打破OpenAI封鎖 提升現有模型能力
自OpenAI的Q*項目曝光後,引發業內眾多討論。據現有資訊匯總,Q*項目被視作OpenAI在探索人工通用智慧(Artificial General Intelligence, AGI)道路上的一次重大嘗試,有望在包括數學問題解決能力、自主學習和自我改進等多個層面對人工智慧技術帶來革新性突破。
(英偉達科學家Jim Fan、圖靈獎得主Yann LeCun等參與討論OpenAI的Q*實現方式)
(Meta科學家田淵棟則認為Q*是Q-learning和A*的結合,且天然地適合推理任務,尤其在數學推理方面)
不過迄今為止OpenAI沒有公開關於Q*演算法的具體細節,其效果究竟如何我們並不得而知。
崑崙萬維自Q*項目曝光以來,一直密切關注Q*的動向,且在第一時間就成立研究小組嘗試開發自己的Q*演算法,希望打破OpenAI的封鎖,提升現有開源模型的推理能力。經過數月的嘗試,團隊提出了一種新穎的Q*框架,並且幫助現有開源模型在GSM8K、MATH和MBPP數據集上,分別超越了ChatGPT和Gemini Ultra。
複雜推理任務全盤規劃
在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中,研究人員首先將大語言模型的推理軌跡分解為若干個狀態,對於每一個狀態,參考DeepCubeA中的設計,通過將定義Path Cost的g(s_t)函數和定義Accumulated Reward的Q*(s_t, a_t)整合到同一個f(s_t)函數內,實現了對歷史狀態收益和未來期望收益的綜合考慮。最後利用A*搜索演算法對狀態進行最佳優先搜索,實現了對複雜推理任務的全盤規劃,從而提升開源模型在推理任務上的性能。
其中g(s_t)表示當前軌跡中的多個歷史狀態,既{s1,...,s_t},的聚合收益。
具體g(s_t)的函數形式可以通過人為定義,例如判斷當前代碼是否符合語法規則等,或者通過構建Process Reward Model (PRM) 進行監督學習得到;g(s_t)中的聚合方式可以為求和,最大值,最小值等。
為了獲得狀態-動作對(s_t, a_t)的最優Q值以實現規劃,研究人員在當前LLM策略生成的數據上通過監督學習的方式訓練了一個代理Q值模型。訓練過程中的真實標簽可以由三種不同的方式得到,包括離線強化學習,蒙塔卡羅採樣估計和利用更強大的語言模型補全。
實驗結果表明,崑崙萬維本次所提出的Q*框架,可以顯著地提升LLM的推理能力,在GSM8K數據集上,Q*幫助Llama-2-7b提升至80.8%的準確率,超越了ChatGPT;在MATH數據集上,Q*幫助DeepSeek-Math-7b提升至55.4%的準確率,超越了Gemini Ultra; 在MBPP數據集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率,縮小了與GPT-4的編程水準差距。
研究證明,Q*能夠幫助參數量僅為7b的小模型達到參數量比其大數十倍甚至百倍模型的推理能力,大幅提升模型的性能,並顯著降低了計算資源的需求。目前,Q*的研究尚在初級階段,演算法在各個環節還有進一步的改進空間。未來,崑崙萬維會繼續深入此項研究,不斷提升國産開源模型推理能力,打破OpenAI閉源封鎖,為人工智慧前沿技術發展帶來全新可能。
(責任編輯:張紫祎)