1.05萬億千瓦時(kW·h)!
這是國際能源署(International Energy Agency,以下簡稱“IEA”)日前發佈的《電力2024》報告中,對2026年全球數據中心的最高總用電量作出的預測。1千瓦時就是1度電,“超過1萬億度電”,根據報告的估算,這些電量大約是整個日本全年的用電量。
數據中心、智算中心等算力基礎設施是人工智慧(AI)的數據中樞和算力載體。隨著AI尤其是生成式人工智慧(AIGC)和大模型技術的快速發展,算力需求激增,AI的能耗問題也越來越受到關注。在近段時間舉行的多場國際會議上,一些科技巨頭紛紛表達了對AI發展帶來的能耗問題的擔憂。
如何在提升智效的同時解決能耗難題,對AI行業來説,是一場“大考”。
AI在推理階段的耗能不容忽視
討論AI耗能的問題,不可避免地要談到AI大語言模型(以下簡稱“大模型”)。
“生成式人工智慧是當前AI技術發展的重點。”騰訊研究院資深專家王鵬在接受中青報·中青網記者採訪時説。他表示,當前,生成式人工智慧技術的基礎就是以數據和算力堆疊為標誌的大模型,其訓練和應用需要大量的算力支援,“算力背後則是算力基礎設施耗電所帶來的巨大電能需求”。
全國政協委員、中國科學院計算技術研究所研究員張雲泉指出,大模型的參數和數據規模越大,其智慧效果就越好。在大模型中,“Scaling Laws”(規模效應)意味著當參數和數據規模大到一定程度時,大模型的智慧表現將出現躍升,也就是“智慧涌現”。“目前我們還沒看到‘智慧涌現’的上限在哪。”
“一般來説,參數量越大,大模型的算力消耗就越大,其消耗的電能就越多。”王鵬表示,因為還沒達到上限,以OpenAI為代表的人工智慧公司在“Scaling Laws”的驅使下,還在持續增加大模型的參數和數據規模,以求實現通用人工智慧(AGI)的目標,造成短期內算力需求和電能需求的巨大提升。
“因為GPT-3有1750億個參數,訓練用到了1024張英偉達A100晶片,所以業內將其稱為‘千卡千參’。”商湯科技智慧産業研究院院長田豐説,目前GPT-4、GPT-5等大模型都達到了“萬卡萬參”的規模,且訓練模型所用晶片也從英偉達A100更新到英偉達H100、B200,“參數量的激增將導致能耗顯著增加”。
除了模型訓練以外,AI在推理階段的耗能也不容忽視。“推理即大模型響應用戶需求的過程”,張雲泉介紹,大模型單次響應用戶需求的耗電量並不大,“但隨著用戶規模的增加,耗電量也將不斷累積並增大。”
近日,源自美國的一則“如果將10萬塊英偉達H00晶片部署在同一地區進行模型訓練,會導致電網崩潰”的新聞引起社會關注。
多位專家在接受記者採訪時表示,AI導致電網崩潰的原因在於,大模型的訓練是階段性的工作,所用到的算力要集中在一個數據中心裏,在有限時空範圍內進行大模型訓練,會給局部電網帶來非常大的用電負荷。
“穩定的電網系統中突然出現巨大負荷擾動,會對電網的穩定和安全産生影響。”張雲泉指出,隨著大模型參數和數據規模的進一步增加,AI的能耗問題將越來越突出,尤其是對於電力供應緊張的國家和地區。“長遠來看,AI推理過程的耗能將越來越大;短期內,大模型訓練的能耗則是最大的AI能耗增量。”
在王鵬看來,與家庭用電量相比,AI的耗電量顯得很大,但其在社會總用電量中的佔比依然很小,“還遠沒有達到製造業用電的數量級”。
解決方案:技術創新與新能源
根據美國機構Uptime Institute的預測,到2025年,AI相關業務在全球數據中心用電量中的佔比將從2%增加到10%;到2030年,智慧計算的年耗電量將佔全球發電總量的5%。
“解決能耗問題,是AI技術發展的重要前提。”田豐對記者説,雖然目前AI的能源消耗還不至於引起大範圍“電荒”,但隨著AI的大規模應用,未來可能發生AI“缺電”的情況,需要尋找合適的解法,讓有限的電力能源可以容納更大的算力規模。
通過研究和實踐,人們對AI的了解逐漸增強,一系列解法隨之而來。從需求角度看,優化大模型架構、提升晶片效率和算力效率等,被認為是降低AI能耗的有效途徑。
張雲泉表示,首先,可以設計AI模型訓練的專用晶片,其效率相較GPU(圖形處理器,現常用於AI計算)提升了10倍以上;其次,可以優化AI模型的參數,很多小模型僅有幾十億的參數量,但已經實現了和大模型一樣的效果;此外,還可以通過對推理過程進行優化壓縮,設計專用推理晶片,進一步降低AI推理階段的能耗。
“大模型變小模型,目前降低能耗效果最好。”張雲泉以微軟4月底發佈的自研小尺寸AI模型Phi-3為例介紹。據了解,Phi-3模型目前有3個版本,其中Phi-3 mini是一個擁有38億參數的語言模型,可部署在手機上,根據實驗和測試結果,其性能已經可以與GPT-3.5等大模型相媲美。
在能源供應方面,訴諸多樣化的新能源供給、依靠國家進行宏觀調控與規劃等舉措,將有助於解決AI能耗問題。天使投資人、資深人工智慧專家郭濤對記者表示,當前,新能源,包括太陽能、風能、水能等可再生能源,正逐漸成為數據中心的最佳能源選擇。“如果沒有足夠的可再生能源來滿足AI能耗的增長,可能會導致對化石燃料的依賴加劇,從而對環境造成負面影響。此外,數據中心還可以通過智慧演算法來優化能源使用效率,實現AI與電網的協同發展。”
不少人工智慧公司已經開始關注新能源。2021年,OpenAI首席執行官山姆·奧爾特曼向核聚變初創公司Helion Energy投入3.75億美元;2024年3月,亞馬遜雲服務公司(AWS)收購美國賓夕法尼亞州一座數據中心園區,據了解,該園區就是從鄰近的核電站獲取電力。
“解決AI耗能問題涉及到算力、電力等多個系統的協調與配合。”王鵬指出,一方面,要從AI本身去降低能耗,包括優化演算法、降低模型參數、提高計算性能等;另一方面,整個能源系統也要積極響應AI的能耗需求。
“源網荷儲”一體化考慮
新能源或將成為解決AI耗能問題的一把“鑰匙”,這正好與我國此前提出的“東數西算”工程相契合。
國家能源局的數據顯示,2023年,我國可再生能源新增裝機3.05億千瓦,佔全國新增發電裝機的82.7%,佔全球新增裝機的一半;全國可再生能源發電量近3萬億千瓦時,接近全社會用電量的1/3。目前,我國已建成全球規模最大的電力供應系統和清潔發電體系,其中青海、內蒙古、寧夏等西北部地區則是清潔能源的“富礦”。
2021年,我國提出實施“東數西算”工程,引導數據中心向西部資源豐富地區聚集,推動當地數據中心走向低碳、綠色、可持續,同時滿足東部地區的算力需求。2022年2月,內蒙古、貴州、甘肅等8地啟動建設國家算力樞紐節點,10個國家數據中心集群被寫入工程總體“規劃”,“‘東數西算’工程全面啟動”。
“大模型時代,‘東數西算’工程將對全國的電力需求和算力需求起到重要的宏觀調控作用。”張雲泉預計,未來將會有越來越多的大型算力中心或智算中心選址我國西部地區,“東數西訓”(即東部地區的AI大模型,在西部地區進行訓練——記者注)將成為AI與新能源協調發展的典型場景。但他強調,推動新能源更好地賦能AI發展,儲能是一個需要解決的問題。
“大規模儲能的建設決定了新能源是否能更好地滿足算力需求。”田豐也同意張雲泉的觀點。田豐指出,包括光電、風電等在內的新能源,具有間歇性發電的特點,需要依靠儲能系統將多發的電及時存儲起來,削峰調谷,以保證電網的供需平衡。
國家能源局的最新數據顯示,截至2024年一季度末,我國已建成投運的新型儲能項目累計裝機規模達到3530萬千瓦,同比增長超過210%,其中10萬千瓦以上的儲能電站超5成,呈現集中式、大型化的發展趨勢。
在儲能的建設上,王鵬著重強調了新能源汽車的分佈式儲能能力。“隨著電池充放電次數和壽命不斷提高,數億輛電車利用峰谷電價差來儲能並反向回供電網,基本可以實現零成本用車甚至盈利,同時也能解決電網的調峰問題。”
此外,王鵬還認為要重新思考“數據網”和“電力網”的分佈式聯動與微觀佈局協同。他指出,為滿足短期內快速增長的人工智慧推理算力需求,除了在西部可再生能源豐富的地區佈局大型算力中心,實現“東數西算”;也需要考慮在東部需求側的數據中心和算力中心附近,積極佈局分佈式可再生能源,如與城鄉建築、農業設施等結合的分佈式BIPV(光伏建築一體化)、光儲直柔一體化等。“而且還要‘源網荷儲’一體化考慮,盡可能通過微電網實現就地峰谷平衡,減少棄風棄光。”
“這需要電價政策、基礎設施建設、政策支援和用戶行為等多方面的配合。”在王鵬看來,整個算力網路、輸電網路、分佈式能源網路,與車輛(充電)網路的高度耦合,或許是解決我國未來AI能耗問題的關鍵。
“在考慮投入和産出算總賬的情況下,AI實際上進一步提高了社會的生産效率,降低了能耗。”田豐認為,AI作為新質生産力正在賦能經濟社會發展,如今的AI大模型已經成為重要的基礎科研設施,其訓練中的投入,最終將為全社會帶來新質生産力的紅利。
目前,在AI大模型的訓練成本中,能源消耗成本的佔比已經超過一半。田豐説,從基礎科研的角度看,要繼續加大對AI技術的投資,“現在是奮起直追的時候,不應該自束手腳”。具體到AI耗能方面,他建議,可以給予大模型訓練一定的能源支援政策。
(責任編輯:畢安吉)