高性能計算類應用的發展,驅動算力需求不斷攀升,但目前單一計算類型和架構的處理器已經無法處理更複雜、更多樣的數據。數據中心如何在增強算力和性能的同時,具備應對多類型任務的處理能力,成為全球性的技術難題。在計算領域晶片企業的不斷探索和研究中,異構計算成為公認的算力突破“抓手”。
晶片廠商發力異構計算
異構計算可以提高算力和性能,降低功耗和成本,又具備多類型任務的處理能力,有望主導未來的高性能計算市場。英偉達、英特爾、AMD作為行業頭部企業,近兩年在異構計算方面的新産品層出不窮。
英特爾在最近的投資者會議中提出了一款將x86和Xe GPU 整合到一個Xeon插槽中的新架構Falcon Shores。英特爾中國研究院院長宋繼強向《中國電子報》記者介紹,將x86的主晶片和GPU的性能整合在一起,這是一個創新。在性能上,Falcon Shores將提供超過5倍的每瓦性能、計算密度以及記憶體容量和頻寬。
英偉達在今年的GTC2022上,宣佈推出首款面向AI基礎設施和高性能計算的數據中心專屬CPU——Grace CPU超級晶片。該晶片專為AI、HPC、雲計算和超大規模應用而設計,由兩個CPU晶片組成,兩者通過NVLink-C2C進行互連。
AMD完成對賽靈思的合併後,將其CPU與賽靈思的FPGA結合為CPU+FPGA的異構模式。借助賽靈思在5G、通信、自動駕駛和行業領域的資源,AMD能夠將高性能計算能力帶入更多領域。
異構計算瓶頸待突破
異構的優勢顯而易見,與此同時暴露出的技術難題也越來越多。一是異構計算産品需要面對不同的系統架構、指令集和編程模型,需要降低多樣計算帶給軟體開發者的難度;二是異構計算晶片産品除了要在晶片設計層面實現突破之外,還需要解決在晶片製造和封裝過程中不同結構之間的適配和升級問題;三是異構計算要實現性能的多樣性合一,使其同時滿足人工智慧訓練、推理、圖像視頻處理等各種不同的需求。
燧原科技創始人兼CEO趙立東在接受《中國電子報》記者採訪時表示,從産業規範與標準層面看,異構計算是指在完成一個計算任務時,採用一種以上的硬體計算單元、互聯協議、差異化架構、軟體介面等。由於不同的硬體設備、協議、應用二進位介面、軟體應用層介面等都存在著巨大的差異,如何構建一個高效、系統化的協調統一的異構計算系統,成為最關鍵的技術問題。
宋繼強同樣表示,異構計算在技術方面、互連方面和軟體方面都面臨瓶頸。一是技術設計流程的協同問題。要保證與其他不同廠商的芯粒一起互聯互通、協同工作時不出現問題。二是需要統一各廠商芯粒之間的互連標準。目前各廠商之間的互連標準並不統一,英特爾攜手業界部分企業,推出了UCIe標準,未來有望把不同廠商的芯粒連到一起,形成一個符合要求的、大的、封裝級的整合晶片。三是軟體層面要過關。不同廠商的計算晶片之間要做出適配的I/O、記憶體通道。
“東數西算”帶來新風口
當下正值我國“東數西算”工程建設穩步推進之際。宋繼強指出,異構計算是“東數西算”的底層支撐。“東數西算”所需的大型計算中心內部,CPU、GPU、FPGA、DPU、專用加速器等對處理不同種類的工作數據各有優勢與劣勢,也有運營成本高低之分,所以未來一定要綜合部署,多種架構可能都需要涵蓋,而且要有機聯合起來。
趙立東認為,異構計算對於“東數西算”來説是剛需。從半導體積體電路“贏家通吃”的發展特性來説,不管是從內部的産品業務佈局,還是外部的生態與商業佈局出發,單個數據中心或智算中心項目在落地時,會考慮異構計算的複雜性及發展不完備性所帶來的巨大的額外部署成本,在一定程度上會偏好選擇以單一廠商為核心的現成産品組合,儘量避免技術適配的投入。而置身於“東數西算”背景下,最終要實現的是全國算力中心的大一統,從而盡可能地優化利用資源,在多個數據中心或智算中心互聯互通的場景下,異構計算的複雜性會是前所未有的。因此,在異構算力溯源、調度與管理平臺的建設上,需要儘早佈局與投入。
算力網路的構建不只依賴於異構計算,通用計算也將為“東數西算”提供更多助力。近兩年,國內涌現出一批通用計算晶片初創企業,以FPGA和ASIC類型晶片作為切入點,部分企業購買國外公司的IP授權開發通用GPU晶片,少數企業自主研發通用GPU核心IP,實現了國內通用計算的突破。
天數智芯副總裁郭為表示,通用計算所構建的算力平臺通常並行處理能力特別強,計算能效比高,並且有很大的存儲頻寬,能夠釋放非常可觀的算力。
郭為建議,強化頂層謀劃,將算力網路上升為國家戰略,從全局層面整體謀劃戰略定位、發展目標,加快構建新型算力網路格局。此外,應成立國家重點實驗室,打造重大原創技術策源地。優化異構計算産業佈局,發揮龍頭領軍企業的“鏈長”作用,協同上下游企業,制定産業鏈供應鏈圖譜及協同發展計劃,推動異構計算産業鏈本土化、供應鏈多元化,確保異構計算産業安全穩定。