在並不平凡的2023年,天極網與大家一起見證數智化技術賦予時代的深刻變革。以智算中心場景為例,大模型訓練及推理在使智慧算力需求激增的同時,也對AI集群網路性能提出更為嚴苛的要求,高吞吐、大頻寬、高可用已成為新一代智算中心網路建設的特性......
致敬數智化時代,第二十二屆IT影響中國深入挖掘行業創新價值、傾聽消費者心聲,評選出具有行業代表價值的科技産品及解決方案,見證數智時代的科技創新。經評委會綜合評定,第二十二屆IT影響中國特授予銳捷AI-FlexiForce智算中心網路解決方案以“年度影響力解決方案獎”。
隨著AIGC技術賦能産業持續升級,AI大模型算力消耗驚人,單一計算設備已遠遠無法滿足模型訓練的算力需求,儘管分佈式訓練可以通過多個GPU節點並行訓練,但隨著AIGC快速發展,模型參數數量不斷飆升,AI集群的GPU節點數也在不斷增加,瓶頸也越來越突出。在這個背景下,GPU利用率成為提升AI大模型訓練速度的主要保障,而影響GPU利用率的關鍵因素之一就是網路通信效率。
那麼,影響網路通信效率的因素拋開硬體性能的限制,針對端處理時延、內部排隊時延和丟包重傳時延三大動態因素優化網路擁塞和時延,已經成為提升AI集群網路通信性能最具成本效益的方法。基於這些思考,銳捷網路致力於提升通信頻寬利用率,降低動態時延以及實現無損的網路傳輸,以提升AI集群網路通信性能。2023年,銳捷網路面向下一代AI雲服務的智算中心網路建設,重磅發佈了銳捷網路AI-FlexiForce智算中心網路解決方案。
二級組網架構
多級組網架構
銳捷網路AI-FlexiForce智算中心網路解決方案擁有高性能、高可靠、高相容、高可用“四高”特性,可應用於大數據處理、機器學習、AIGC多種業務場景,幫助客戶構建萬卡級別的智算中心網路。
高性能
支援大規模組網:採用NCP+NCF為基礎模組的三級多軌網路架構,三級組網可承載17K-32K的大規模GPU卡集群,多軌架構可將同號GPU的流量規劃在同一Pod內,從而有效減少數據轉發跳數,大幅降低通信時延。
高頻寬利用率:基於高性能晶片技術,通過將數據流切分成等長的Cell並負載到所有鏈路,讓數據流轉發負載更均衡,將網路頻寬利用率提升20%以上,從而有效降低長尾延時,保障AI集群的低延時通信。
高可靠
自閉環的無損傳輸:基於VOQ+Credit信令機制,主機接收端發送Credit,確保主機發送端流量在接收端不會過載,規避了RDMA對擁塞信號“事後”響應而造成的網路不確定性,真正實現了無損AI算力網路的通信。
去中心化的分佈式OS:實現了控制面與管理面解耦,有效縮小故障域,設備可以獨立升級,提升系統冗余性和可靠性,大幅提升了集群的穩定性。
鏈路故障快速恢復:基於硬體的自動故障隔離和恢復,無需軟體干預和表項更新,即可實現微秒級的故障快速恢復,實現故障無丟包的網路系統。
高相容
實現端網解耦:AI-FlexiForce網路由Credit信令控制NCP之間的流量轉發,無需端側參與流量控制,使AI網路不依賴於特定廠商的伺服器/網卡的特定功能,可相容全廠商全型號GPU方案,同時還支援不同GPU混合部署。
高可用
快速上線部署:在部署上線時,使用者無需複雜網路調參,即可實現即插即用的網路,直接進入可使用網路環境。
無需流量調度:在多任務場景下,出現網路擁塞的幾率大幅增加,AI-FlexiForce網路無需流量調度器也可以實現95%以上的高頻寬利用率,適配各種模型的流量。
天極網認為
銳捷網路AI-FlexiForce智算中心網路解決方案可實現即插即用的網路、支援大規模三級組網、全場景適用、負載均衡、頻寬利用率達97%、us級硬體自愈等多種獨特優勢,助力打造集約高效的智算中心,為算力釋放提供強大支撐。
AI-FlexiForce智算中心網路解決方案由400G NCP交換機和200G NCF交換機組成:
·NCP設備為RG-S6930-18QC40F1,提供18個400G業務口和40個200G內聯口。
·NCF設備為RG-X56-96F1,提供96個200G內聯口。
NCP産品RG-S6930-18QC40F1
NCF産品RG-X56-96F1
科技創新的浪潮不斷奔涌向前,引領數智時代發展的新技術、新事物也不斷涌現。2023年天極網也與科技企業一同感受到數智化、智慧化技術的力量,尤其是大模型技術的持續發展為智算中心網路帶來深刻的影響。我們注意到銳捷網路通過持續的技術研發和産品創新為智算中心帶來高性能、高可靠、高相容、高可用的AI-FlexiForce智算中心網路解決方案,賦能智算中心網路建設。榮獲IT影響中國2023“年度影響力解決方案獎”,銳捷網路AI-FlexiForce智算中心網路解決方案實至名歸。
(推廣)
來源:信陽日報 | 撰稿:銳捷 | 責編:谷晟 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:135 8189 2583