12月23日,百川智慧發佈全鏈路領域增強大模型Baichuan4-Finance,實現了金融能力和通用能力的協同提升,增強了金融場景的整體可用性。其在金融專業能力與場景應用能力方面大幅超越 GPT-4o,于中國人民大學財政金融學院12月17日發佈的FLAME評測體系以及國內主流開源金融評測基準FinanceIQ中均榮登榜首。
當前,大模型在落地具體場景時面臨的關鍵挑戰在於,如何在提升專業能力之際避免通用能力的折損。百川智慧打造了一套全鏈路領域增強方案,該方案覆蓋了高品質數據集構建、模型預訓練、微調直至強化學習等從模型研發到場景應用的全過程。

在模型訓練階段,通過行業首創的領域自約束訓練技術,百川智慧實現了模型專項能力和通用能力同步提升的效果,極大提升了模型多元場景的可用性。而Baichuan4-Finance正是這一方案的最新成果,全鏈路金融領域增強讓其既掌握了紮實的金融理論基礎,又具備了豐富的多場景實踐應用能力。
具體而言,Baichuan4-Finance的高品質金融數據集全面且嚴謹,既包含金融專業教材與學術著作、頂級金融期刊論文、監管機構政策文件、金融法律法規等核心專業金融知識數據,也覆蓋了金融專業問答集、企業財報與年度報告、金融類研究分析報告等實踐應用類數據,為提升模型金融能力提供了良好的底層支撐。
在此基礎上,Baichuan4-Finance還在領域自約束訓練過程中引入了更高精的通用數據,與高品質金融數據一起進行混合訓練,最終實現了模型通用能力不下降,金融能力穩定增長的效果。
此外,百川智慧在後訓練環節也做了大量增強工作,如:通過合成數據、指令數據對模型進行有監督的微調;在強化學習策略中,針對數學計算等金融領域特別關注的場景進行樣本增強等,進一步提升了模型性能。
為了更好地助力金融企業將大模型應用到各種真實場景,百川智慧還在官網發佈了Baichuan4-Finance全鏈路領域增強的技術報告,詳細闡述了包括“領域自約束訓練”在內的各項技術細節。此舉不僅將極大增強金融行業對大模型的認知,還將有效提升金融企業部署大模型的能力與意願。
攻克了專項能力和泛化能力平衡問題這一模型落地應用的最大阻礙後,Baichuan4-Finance能夠在效率提升、風控合規、客服、決策支援等諸多層面為金融行業帶來全方位的價值提升。例如,它能夠幫助金融從業者處理文檔審核、客戶諮詢、産品行銷等大量日常工作,還能依託深厚的金融專業知識和法律法規理解能力,為機構提供精準的風險識別和合規保障。此外,還可以憑藉強大的數據分析能力為管理層提供專業的市場洞察和決策建議。
FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)作為金融領域全新的評測體系,兼具專業性與實用性,由兩個方向的評測基準構成。
其中,FLAME-Cer 主要聚焦模型的專業金融能力評測,涵蓋了CPA、CFA、FRM 等14類權威金融資格認證;FLAME-Sce 則著重于模型的場景應用能力評估,包含10個一級核心金融業務場景、21個二級細分金融業務場景以及近百個三級金融應用任務。
FLAME-Cer評測結果顯示,Baichuan4-Finance在銀行、保險、基金、證券等多個資格認證領域的準確率均突破了95%,整體準確率93.62%,超出GPT-4o近20%。
在FLAME-Sce評測中,Baichuan4-Finance一級核心金融業務場景的整體可用率達84.15%,其金融數據計算、金融知識理論等場景的可用率更是超過90%,實際應用場景中的表現優秀。
不僅如此,在國內主流開源金融評測基準FinanceIQ上Baichuan4-Finance同樣超越了GPT-4o,整體準確率達到79.23%,領先GPT-4o近13%。
(責任編輯:朱赫)