作為AI全棧網路服務專家,銳捷網路受邀出席本次大會,從架構規劃、部署實施以及運維優化三方面分享了AIGC智算中心網路解決方案。銳捷網路致力於為企業提供覆蓋IaaS到PaaS的全棧産品及解決方案,致力於提升通信頻寬利用率,降低動態時延以及實現無損的網路傳輸,以提升AI集群網路通信性能,幫助客戶實現生産效率的飛躍和運營成本的優化。
近年來,ChatGPT、Sora為代表的大模型取得技術突破,掀起新一輪人工智慧熱潮,數據量爆炸式增長,算力需求激增。各國積極出臺相關政策,加速推動AI産業的佈局和發展。中國亦推出《關於支援建設新一代人工智慧示範應用場景的通知》等相關政策引導AI産業更健康有序發展。算力網路作為算力主要載體,能夠有力支撐更為複雜、深入的AI演算法和模型訓練,進而推動AI技術的持續創新與應用拓展,加速AI新時代發展。
作為行業領先的網路基礎設施及解決方案提供商,銳捷網路積極響應國家“東數西算”重大戰略,持續優化算網佈局,積極推進AIGC重點方向發展,用智算網路等來賦能新質生産力,推動數字經濟與實體經濟融合發展。同時,銳捷網路獲評“2024年AIGC智算網路最佳解決方案”。
銳捷網路解決方案經理劉洋進行了題為《面向下一代AIGC智算中心網路方案的思考》的主題演講,闡述了AIGC大模型的發展趨勢及關鍵訴求,介紹了兩種AIGC智算中心網路解決方案。
解決數據中心網路擁塞
AI-Fabric解決方案
銳捷網路AI-Fabric解決方案通過三級組網的方式可以滿足3.2萬個400G端口接入需求,支撐32K塊GPU卡的集群規模。該方案從架構規劃、部署實施以及運維優化三個層面進行頻寬利用率的提升。從架構規劃來看,採用多軌網路的接入方式來匹配流量模型,設計各層級 1:1的低收斂比來優化機間通信,並通過端網協同、在網計算等技術來規劃整體的網路。在部署實施階段,目前更多業務還是會部署RDMA應用,為了確保業務的吞吐效率,網路需要實現無損轉發,類似PFC、ECN、QoS等水線的調優就顯得尤為重要,另外對於網路中負載的均衡性也需要考慮模式和演算法的優化。最後考慮運維方面,在網路部署後的運作當中,方案實時關注網路關鍵指標的監控,以及對丟包重傳等週期性事件的訂閱和告警上報,並且結合智慧運維平臺去做流控水線的動態調優,來保證網路寬用率更大化。
AIGC”任督二脈“
AI-Flexiforce解決方案
銳捷網路AI-FlexiForce智算中心網路解決方案採用NCP+NCF為基礎模組橫向擴展的三級網路架構,並基於高性能晶片技術,通過將數據流切分成等長的Cell並負載到所有鏈路,提升網路頻寬利用率;基於VOQ+Credit的端到端流控機制實現與業務無關的無損自閉環網路,助力業務算力提升。
銳捷AI-FlexiForce智算中心網路解決方案通過創新性地應用鏈路負載和擁塞控制技術,根本性解決網路中的擁塞衝突問題,提升GPU之間通信效率,進而提升GPU計算效率,加速企業大模型應用的推出。
同時,在研發AI-FlexiForce智算中心網路解決方案時,打造了分佈式OS,意在實現分佈式方案架構的統一管理基礎上,最大程度降低系統性風險,提升AI訓練網路的長期穩定運作。
邁向高速光通信領域
400G/800G LPO光模組
本次展會,銳捷網路展示了基於LPO技術的400G和800G自研光模組,標誌著公司在高速光通信領域的技術實力和創新能力得到了顯著提升。
本次展會,銳捷網路展示了基於LPO技術的400G和800G自研光模組,標誌著公司在高速光通信領域的技術實力和創新能力得到了顯著提升。
與傳統光模組相比,LPO技術利用交換晶片Serdes的DSP能力,在光模組中不再整合DSP晶片,只保留Drvier和TIA晶片,且TIA、Driver晶片不需要專門優化即可實現優異的傳輸性能,可以為客戶帶來顯著的收益:
•功耗下降50%:LPO光模組功耗相較普通光模組下降50%。低功耗不僅節省電力開銷,而且能夠減少模組內組件的發熱,提升産品壽命。
•客戶成本降低25%:光模組中不使用DSP組件,從而可以將客戶光模組採購成本下降。
•時延降低90%:傳統整合DSP組件的光模組傳輸時延約100ns,而基於LPO技術的光模組傳輸時延小于10ns。
在全球網際網路流量不斷增長和數據應用需求日益多樣化的背景下,銳捷將持續精進智算中心網路解決方案,攜手阿里巴巴、騰訊、字節跳動、百度等多個網際網路頭部客戶,在降低時延、提高在網計算性能、實現端網融合等方面持續突破。未來,銳捷網路還將通過持續的技術研發和産品創新,繼續為全球的數據中心提供更高效、更可靠、更智慧的網路解決方案,在AIGC時代助力網際網路及各行業實現快速發展,攜手探索GenAI時代的每一個機遇。