一個“技術問題”,導致巴菲特的伯克希爾-哈撒韋公司股價暴跌近100%。
想必很多小夥伴已經感受過了這則鋪天蓋地的消息,所帶來的億點點震撼。
而根據事後的消息來看,這個大故障是紐交所的合併報價系統(CTA)在更新軟體時出現了問題。
許多專家都對此做了分析,有人認為是CTA軟體在進行版本更新時出現了數據一致性問題;也有人提出最大的問題應該是出現在了數據庫。
但總而言之,這並非是紐交所今年來第一次出現的故障,而是眾多裏的一個:
甚至某開源數據庫聯合創始人Jason直言不諱地表示:
>紐交所在CTA軟體上相關的IT水準還不及中國的大型金融機構和網際網路公司,在中國已經很少會發生這種低級錯誤了。
即便如此,這也不禁令人産生更大的顧慮和擔憂——
傳統軟體問題尚能引發如此大的問題,那麼站在大模型時代當下,AI+金融,是否又能做到準確可信?
正所謂實踐是檢驗真理唯一標準,要回答的這個問題,我們不妨了解一下已經在金融領域“上崗”了的AI大模型。
大模型上崗金融,都在做什麼?
誠然AI大模型的發展已然呈現勢不可擋的趨勢,但在金融領域真正應用的時候,依舊存在一些顯著的困難和挑戰。
例如數據隱私和安全方面,金融數據往往高度敏感,涉及個人和企業的財務資訊,確保數據隱私和安全是首要挑戰之一。
並且這些數據具有多源和異構的特點,需要進行有效的整合和處理,才能確保它們的準確性和完整性。
再如模型本身,大模型往往被視為“黑箱”,因為其內部決策過程難以解釋;在金融領域,尤其是涉及風險管理和監管合規時,可解釋性和決策透明性是非常重要的。
還有在實時性和資源消耗方面,金融市場瞬息萬變,需要實時數據處理和決策支援,大模型的推理涉及到大量的矩陣乘法計算,對硬體的矩陣乘法計算能力提出較高要求,計算複雜性可能導致響應時間延遲,不利於實時應用。
加之大模型訓練和推理過程需要大量的計算資源和能量消耗,這對企業的成本和環保要求提出了挑戰。
而成立於1998年的老牌金融科技公司金證,面對上述固有的重重困難,卻有著自己的一套解法。
在金證看來,大模型的優勢在於文本及非結構化數據處理能力、人機交互能力、生成能力和邏輯推理能力較強。
而相比小模型而言,大模型也存在明顯的劣勢,例如大模型“幻覺”問題(即大模型答非所問),大模型的部署算力要求高造成算力資源浪費,部署成本高等問題。
因此,金證的解法就是——通過組合式AI,即大模型+小模型+工具,以此來支撐各個業務場景AI需求。
大模型方面,包含金證去年年底推出的K-GPT以及業內眾多頂流的大模型,在特定的金融任務中發揮大模型的特長。
小模型則是指諸如OCR、NLP、人臉識別、文字識別、財務分析等傳統模型,可以細分任務做到快準狠地處理。
至於工具,則是指地圖、天氣、CRM、郵件、OA等。
一言蔽之,在某個金融領域任務中,這種模式可以讓大模型、小模型和工具做到“專業的人幹專業事”,尤其能極大地提高效率。
值得一提的是,相比于通用大模型,金證的K-GPT在數據查詢的準確性方面表現更佳,能夠更好地理解金融術語,提供專業且數據紮實的回復。
據了解,K-GPT還支援查看引用的知識源,並具備與實時數據和模組化整合的能力,可以調取實時數據和組件。
依託龐大的金融知識庫,K-GPT專為金融場景服務,其核心優勢在於對金融的深入理解、數據準確、可驗證性以及支援調用Agent功能。
從效果上不難看出,金證已然讓大模型在金融領域中合格地上崗,那麼針對成本和資源上的痛點,金證又是如何解決的呢?
背後是高頻寬記憶體(HBM)的至強處理器在發力
金證K-GPT方案中,還有一點比較特別:與英特爾合作,採用了基於CPU的大模型推理方案。
據了解,他們主要是看中的是英特爾®至強® CPU Max系列處理器。
這是英特爾唯一一款基於x86架構並採用高頻寬記憶體(HBM)的CPU系列,採用了片上HBM設計,記憶體頻寬高達4TB/s。和傳統DDR5記憶體相比,HBM具有更多的訪存通道和更長的讀取位寬,理論頻寬可達DDR5的4倍之多。
要知道,大模型推理涉及大量的權重數據讀取,對硬體平臺的記憶體訪問頻寬提出了很高的要求。
至強® CPU Max具有64GB HBM,每個內核可以分攤到超過1GB的記憶體,對於包括大模型推理任務在內的絕大多數計算任務,HBM都可以容納全部的權重數據。
記憶體頻寬還不是金證選擇這款CPU的全部理由。
英特爾®至強® CPU Max系列還內置了英特爾®高級矩陣擴展 (英特爾®️ AMX)引擎,大幅提升了大規模矩陣乘法運算性能。
金證K-GPT基於Transformer架構,其核心特點包括多頭注意力機制和前饋神經網路層,這其中都包含大量矩陣運算,而英特爾® AMX通過1024位TMUL指令和8個獨立的矩陣計算單元,可以每時鐘週期執行8次獨立的矩陣乘累加操作,為這些運算提供強大的加速能力。
如此一來,大模型推理的效果如何呢?
在只用單顆 CPU的情況下,推理130億參數大模型,首個詞元生成時間就能壓到1秒左右,模型推理TPS超過10 tokens/s,用戶提問後約2秒內就能得到響應。
別忘了遇到負載高峰等情況,還可以同時啟用2顆CPU,性能還能提升將近一倍,可以説足以滿足金融場景的大部分應用需求了。
除了硬體層面的突破,英特爾還提供了經過優化的軟體工具來挖掘硬體潛力。
比如廣泛使用的OpenVINO™工具套件,就被用來專門調優加速模型的Embedding處理進行。
金融場景涉及大量專業文檔的輸入任務,Emedding正是把文本從離散變數轉變為連續向量的過程,好讓AI能夠理解。
經過OpenVINO™工具套件優化後,K-GPT大模型的批量Embedding性能提升到3倍之多。
圖注:OpenVINO™工具套件優化前後 Embedding性能比較
再比如金證與K-GPT配合使用的開源向量數據庫Faiss,英特爾也提供了優化版本,以提升在至強® CPU Max上的模型推理性能。
在大規模向量相似性檢索任務中,經英特爾優化過的版本性能可提升至4倍左右。
圖注:英特爾優化版 Faiss與原始 Faiss性能對比(越高越好)
除了性能方面之外,金證選擇英特爾®至強® CPU Max系列作為算力底座還帶來其他方面的優勢:
首先是靈活性。由於與主流的 x86架構完全相容,金證可以繼續使用原有的機器,靈活搭配適合自身業務的配置。而且 CPU能同時應對推理和通用計算,可根據負載情況隨時調配資源。
第二是總擁有成本 (TCO)。從長遠來看,CPU路線能以更低的部署和維護開銷,實現與專用加速器相媲美的性能。這對於需要控制預算的金融機構來説至關重要。
綜合看下來,英特爾®至強® CPU Max系列處理器在硬體能力、軟體優化、生態適配、總擁有成本優勢等方面都與金融場景非常契合,不失為業界大模型落地的一種新思路。
如何評價?
隨著數字化轉型的不斷深入,大模型為金融行業帶來的機遇與挑戰並存。
越來越多的金融機構開始探索如何將 AIGC技術與實際業務相結合,在提質增效的同時控製成本。但總的來説,大模型在金融行業的應用仍處於初步探索階段。
金證攜手英特爾打造的這套大模型推理方案,可謂是應用層、模型層、算力層的深度融合,為業界樹立了標桿。
不久前舉辦的金證科技節,就吸引了眾多金融機構前來"取經"。
作為連接金融與科技的重要平臺,金證科技節吸引了眾多來自銀行、證券、保險等領域的金融行業玩家參與,共同探討 AI技術在金融領域的應用前景與優質實踐。
可以預見,在英特爾的算力加持下,金證將在大模型技術上不斷突破,助力更多金融機構實現數字化轉型,為用戶帶來更智慧、高效的服務體驗。