AI觀察｜GPU持續升級如何應對算力“貧富差距”-中國網

您的位置：首頁 > 數字浙江新聞詳情

AI觀察｜GPU持續升級如何應對算力“貧富差距”

發佈時間 | 2024-03-22 15:45:10

　　英偉達的GPU又升級了。3月19日，英偉達CEO黃仁勳發佈了最新的B200算力晶片GPU，FP8精度下的訓練性能是上一代的2.5倍，FP4精度下的推理性能更是達到了上一代的5倍。然而，這場技術狂歡背後，卻令AI領域算力的“貧富差距”更加凸顯。

　　大模型獲得突破以來，無論是産業巨頭還是學術界，都在為獲取足夠的算力資源而苦苦掙扎。去年9月，甲骨文董事長埃裏森和特斯拉CEO馬斯克在矽谷一家豪華餐廳中向黃仁勳“乞求”GPU的場景還歷歷在目。近日，人工智慧領域知名學者、斯坦福大學教授李飛飛再次表達擔憂：高校的AI研究已經被高昂的GPU成本所拖累，逐漸被産業界甩在身後。

　　Meta可以為模型訓練採購高達35萬個GPU，而斯坦福大學的自然語言處理小組，卻總共只有68個GPU——這種“萬”與“個”的懸殊對比，揭示了算力鴻溝的殘酷現實。為此，李飛飛提出建立“國家級算力與數據集倉庫”的計劃，並稱其重要性堪比“登月投資”。

　　對我國而言，情況同樣嚴峻。以GPU等AI晶片為代表的稀缺算力資源，優先向少數大型企業供給，高校、中小微企業苦於高昂成本難以參與其中。

　　在此背景下，超大規模智算中心的建設或許能為解決算力短缺問題提供一個思路，成為我國在全球AI競爭中取得優勢的重要一環。

　　事實上，我國早已在算力基礎設施上展開積極佈局。“東數西算”工程作為國家級的工程項目，在全國範圍內規劃了八大樞紐節點和十大數據集群，並且已經取得顯著進展。

　　以十大集群之一的韶關集群為例，前不久，其首批上線運營的華南數谷智算中心，一期規划算力16000P（1P約等於每秒1000萬億次計算速度），規模居粵港澳大灣區首位。預計到2025年初，韶關集群的智慧算力規模將達到50000P，成為大灣區、廣東省乃至整個華南地區的最大體量。這些算力資源，不僅可以滿足高校的科研需求，還可以為中小企業等各行各業提供實時、高效的算力支援。

　　然而，超大規模智算中心的建設並非易事。它需要突破一系列核心技術，其中異構算力的統籌和調度尤為關鍵。異構計算，即多種算力的混合使用，對於實現全國算力中心的大一統和優化資源利用至關重要。在多個數據中心或智算中心互聯互通的複雜場景下，異構計算的挑戰前所未有。傳播內容認知全國重點實驗室研究員張冬明表示，在異構算力的建設和發展過程中，國産AI晶片必將扮演越來越重要的角色。然而就目前來説，受配套軟體、固件支援等生態系統方面的制約，真正能夠有效支撐大模型訓練的國産算力集群並不多。

　　這些情況已被有關部門敏銳捕捉到。今年年初，工業和資訊化部等七部門聯合印發的《關於推動未來産業創新發展的實施意見》中提到：“加快突破GPU晶片、集群低時延互連網路、異構資源管理等技術，建設超大規模智算中心，滿足大模型迭代訓練和應用推理需求。”

　　專家認為，在當前階段，大部分算力性能的提升主要來自“系統整合”。既有基於小芯粒技術的晶片級整合，也有基於一卡多芯技術的板卡級整合，還有基於液冷和高互聯的機架級整合。因此，建議在加強單晶片能力的同時，應注重提升AI算力的系統整合能力，從單點突破轉向橫向拓展，對芯粒、液冷、互聯等相關技術持續投入，進一步實現AI算力系統的高算力、高效能、高穩定、高性價比。

　　當前，智算中心正在成為通用人工智慧發展的關鍵。而超大規模智算中心，正在成為智算中心持續演進的未來形態。隨著智算中心的發展成熟，“開箱即用”的智慧計算服務有望成為主流。當然，這需要産業界、學術界和政府的通力合作。

　　在算力資源的統籌配置方面，業內人士建議，政府可以通過行政手段，以統籌建設的方式集中採購，通過“雲化”將算力按P銷售，再以“算力券”等的方式補貼中小型科研機構，以促進AI的研究和應用發展。

來源：人民網 | 撰稿：辛文 | 責編：陳曉菲審核：張淵

新聞投稿：184042016@qq.com 新聞熱線：135 8189 2583

原創