百倍提升7B模型推理能力崑崙萬維攜手新加坡南洋理工大學發佈Q*演算法

2024年06月25日15:58 中國網科技

新聞爆料: alltech@china.org.cn 電話:(010)82081166-6059

　　近日，崑崙萬維攜手新加坡南洋理工大學成功開發了一個名為Q*的演算法，能夠顯著提升現有大模型的推理能力。在GSM8K數據集上，Q*幫助Llama-2-7b提升至80.8%的準確率，超越了ChatGPT；在MATH數據集上，Q*幫助DeepSeek-Math-7b提升至55.4%的準確率，超越了Gemini Ultra；在MBPP數據集上，Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率，縮小了與GPT-4的編程水準差距。

　　Q*能夠幫助小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力，這一演算法不僅大幅提升了小模型的性能，還顯著降低了計算資源的需求，為人工智慧的廣泛應用帶來了全新可能，開創了高效智慧的新紀元。

　　項目論文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已公開發佈。

　　打破OpenAI封鎖提升現有模型能力

　　自OpenAI的Q*項目曝光後，引發業內眾多討論。據現有資訊匯總，Q*項目被視作OpenAI在探索人工通用智慧(Artificial General Intelligence, AGI)道路上的一次重大嘗試，有望在包括數學問題解決能力、自主學習和自我改進等多個層面對人工智慧技術帶來革新性突破。

(英偉達科學家Jim Fan、圖靈獎得主Yann LeCun等參與討論OpenAI的Q*實現方式)

　　(Meta科學家田淵棟則認為Q*是Q-learning和A*的結合，且天然地適合推理任務，尤其在數學推理方面)

　　不過迄今為止OpenAI沒有公開關於Q*演算法的具體細節，其效果究竟如何我們並不得而知。

　　崑崙萬維自Q*項目曝光以來，一直密切關注Q*的動向，且在第一時間就成立研究小組嘗試開發自己的Q*演算法，希望打破OpenAI的封鎖，提升現有開源模型的推理能力。經過數月的嘗試，團隊提出了一種新穎的Q*框架，並且幫助現有開源模型在GSM8K、MATH和MBPP數據集上，分別超越了ChatGPT和Gemini Ultra。

　　複雜推理任務全盤規劃

　　在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》論文中，研究人員首先將大語言模型的推理軌跡分解為若干個狀態，對於每一個狀態，參考DeepCubeA中的設計，通過將定義Path Cost的g(s_t)函數和定義Accumulated Reward的Q*(s_t, a_t)整合到同一個f(s_t)函數內，實現了對歷史狀態收益和未來期望收益的綜合考慮。最後利用A*搜索演算法對狀態進行最佳優先搜索，實現了對複雜推理任務的全盤規劃，從而提升開源模型在推理任務上的性能。

　　其中g(s_t)表示當前軌跡中的多個歷史狀態，既{s1,...,s_t}，的聚合收益。

　　具體g(s_t)的函數形式可以通過人為定義，例如判斷當前代碼是否符合語法規則等，或者通過構建Process Reward Model (PRM) 進行監督學習得到；g(s_t)中的聚合方式可以為求和，最大值，最小值等。

　　為了獲得狀態-動作對(s_t, a_t)的最優Q值以實現規劃，研究人員在當前LLM策略生成的數據上通過監督學習的方式訓練了一個代理Q值模型。訓練過程中的真實標簽可以由三種不同的方式得到，包括離線強化學習，蒙塔卡羅採樣估計和利用更強大的語言模型補全。

　　實驗結果表明，崑崙萬維本次所提出的Q*框架，可以顯著地提升LLM的推理能力，在GSM8K數據集上，Q*幫助Llama-2-7b提升至80.8%的準確率，超越了ChatGPT；在MATH數據集上，Q*幫助DeepSeek-Math-7b提升至55.4%的準確率，超越了Gemini Ultra; 在MBPP數據集上，Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準確率，縮小了與GPT-4的編程水準差距。

　　研究證明，Q*能夠幫助參數量僅為7b的小模型達到參數量比其大數十倍甚至百倍模型的推理能力，大幅提升模型的性能，並顯著降低了計算資源的需求。目前，Q*的研究尚在初級階段，演算法在各個環節還有進一步的改進空間。未來，崑崙萬維會繼續深入此項研究，不斷提升國産開源模型推理能力，打破OpenAI閉源封鎖，為人工智慧前沿技術發展帶來全新可能。

(責任編輯：張紫祎)

免責聲明：中國網科技刊發此文目的在於傳遞更多資訊，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔。