科技 > 雲計算 > 正文

公共雲提速“人工智慧+” 智慧算力緊缺制約大模型規模化應用

2024年04月24日10:20 新華網 作者：扈永順

新聞爆料: alltech@china.org.cn 電話:(010)82081166-6059

　　原標題：瞭望 | 公共雲提速“人工智慧+”

　　AI+時代，公共雲將成為破解算力資源緊張、降低算力成本的關鍵抓手

　　公共雲可以多路復用，通過多租戶使用同一套計算資源大池，削峰填谷，顯著提升硬體資源利用率，降低使用成本

　　公共雲和AI相結合還將推動雲計算走向雲智算

　　新一代人工智慧技術正步入跨越式發展新階段，成為引領現代産業變革的核心力量。“人工智慧+”今年首次被寫入政府工作報告，多地積極探索推動AI深度賦能實體經濟，開啟了AI在各行各業廣泛應用的新篇章。

　　隨著AI技術和應用創新不斷加速，模型複雜度和數據量急劇增加，對包括算力在內的新型基礎設施建設提出了新需求和新要求，建立適應AI+時代的高品質算力服務體系迫在眉睫。

　　日前國家資訊中心資訊化和産業發展部發佈了《“人工智慧+”時代公共雲發展模式與路徑研究》報告，提出公共雲是破解我國AI+時代算力“供不上、用不起”瓶頸問題的重要抓手。

　　公共雲是指面向公眾提供的雲計算資源，通過聚合各類算力並通過線上的模式為各類用戶提供簡單易用，且近乎無限擴展的計算服務，其本質是將雲計算資源規模化、大範圍進行共用。“公共雲能以資源利用效率最大化的方式，幫助提升我國算力供給能力，並通過規模經濟效應推動算力門檻降低，讓更多的用戶享受普適普惠的算力服務。”國家資訊中心資訊化和産業發展部主任單志廣介紹。

　　智慧算力緊缺制約大模型規模化應用

　　智慧算力資源緊缺已成為制約大模型規模化應用的主要瓶頸。

　　按照應用和功能特性，算力可分為基礎算力、智慧算力、超算算力三類，基礎算力主要基於CPU晶片，用於滿足基礎通用計算需求，如網購、打遊戲等；智慧算力基於GPU、FPGA(現場可編程門陣列)、ASIC(專用積體電路晶片)等AI晶片的加速計算平臺，主要用於人工智慧的訓練和推理計算，如語音、圖像和視頻的處理；超算算力由超級電腦等高性能計算集群提供，主要用於尖端科學領域的計算。

　　智慧算力方面，以AIGC(生成式人工智慧)為代表的AI應用、大模型訓練等所使用的數據量和參數規模呈指數級增長，帶來了智慧算力需求爆炸式增加。例如GPT-3模型參數約為1746億個，訓練一次需要以每秒一千萬億次計算，運作3640天。GPT-4參數數量擴大到1.8萬億個，是GPT-3的10倍，訓練算力需求上升到GPT-3的68倍，在2.5萬個A100晶片上需要訓練90～100天。

　　在中文大語言模型方面，2023年3月百度發佈文心一言，4月華為發佈盤古大模型，阿裏發佈通義千問大模型，商湯科技公佈日日新大模型體系，5月科大訊飛發佈星火大模型等，到目前我國大語言模型已有上百個。根據中國資訊通信研究院測算，從設備供給側看，2022年我國計算設備總算力規模中，基礎算力佔比40%，智慧算力佔比則高達59%，成為算力快速增長的驅動力。根據預測，到2026年智慧算力規模將進入每秒十萬億億次浮點計算(ZFlops)級別。

　　“大語言模型發展帶來了AI算力需求的快速上升，所消耗的計算資源每幾個月翻一倍，算力需求的增長速度已經遠超晶片性能提升和産能擴張速度上限。”單志廣介紹。

　　公共雲具備緩解算力緊缺潛力

　　公共雲是以需求為導向以應用為目的的一種公共服務模式。AI+時代，公共雲將成為破解算力資源緊張、降低算力成本的關鍵抓手。

　　首先，公共雲具備訓練大模型所需的強算力。訓練全球領先的基礎大模型需要調度至少萬張GPU晶片高效協同工作，只有極少數公共雲具備相應能力。從亞馬遜、微軟和谷歌等科技巨頭運營公共雲的經驗來看，其優勢是規模大、效率高，天然能向全球市場擴張。

　　其次，公共雲的規模效應能夠帶來算力普惠。隨著AI大模型規模化應用，支撐海量用戶頻繁使用所需要的推理算力成本也將急劇上升，尤其是多模態大模型對於算力的消耗將遠高於文本類大語言模型。算力成本是限制大模型發展的關鍵因素之一，中小型AI企業往往難以通過自建算力設施解決訓練和推理算力需求，因此算力租賃需求旺盛。公共雲可以多路復用，通過多租戶使用同一套計算資源大池，削峰填谷，顯著提升硬體資源利用率，降低使用成本。例如亞馬遜、阿裏雲等公共雲廠商隨著用戶規模增加、技術優化和運營效率提升，持續降低雲計算服務價格，亞馬遜AWS曾連續三年每年降價12次；過去十年阿裏雲將計算成本降低了80%，存儲成本降低了近90%。

　　再者，公共雲能夠實現我國算力供給能力的邊界突破。公共雲通過集群的計算、網路、存儲平衡設計和軟硬一體化加速技術，調度“盤活”已有晶片，可以形成超大規模算力資源池，實現晶片復用、彈性可擴展；發揮公共雲大規模機器調度、異構晶片相容能力，不僅能將已有先進晶片集約化利用，還能充分利用已有的通用CPU資源，為AI大模型訓練和推理應用提供必要的算力支援；隨著公共雲技術體系加速升級，AI訓練、AI推理以及HPC超算等計算資源將並池管理，實現算力普惠和模型普及。