【中國,北京,2024年12月23日】在由中國信息通信研究院主辦的智算IP廣域網(wǎng)產(chǎn)業(yè)交流會(huì)上,中國電信股份有限公司北京分公司(以下簡稱“北京電信”)云網(wǎng)發(fā)展部規(guī)劃總監(jiān)姚凌分享了“打造高品質(zhì)智算廣域網(wǎng),百公里無損聯(lián)算服務(wù)首都新發(fā)展”的演講。姚凌表示北京電信通過智算廣域網(wǎng)將京津冀三地算力中心資源整合,探索多算力中心協(xié)同完成超大模型訓(xùn)練的多點(diǎn)共算新模式。采用新型流級(jí)擁塞控制,無損調(diào)度和深度負(fù)載均衡智算廣域網(wǎng)技術(shù),保證網(wǎng)絡(luò)傳輸吞吐率95%以上,從而實(shí)現(xiàn)跨智算中心算效不下降,高效服務(wù)人工智能產(chǎn)業(yè)發(fā)展需求。
算力需求每年增長10倍,運(yùn)營商規(guī)劃構(gòu)建萬卡集群,協(xié)同完成超大模型訓(xùn)練。受供電、機(jī)房環(huán)境等因素限制,單智算中心物理環(huán)境不滿足萬卡集群的建設(shè)需求。通過廣域網(wǎng)絡(luò)聯(lián)接跨幾百到上千公里的異地算力中心,會(huì)面臨兩個(gè)關(guān)鍵技術(shù)點(diǎn)挑戰(zhàn): 一是跨DC大模型訓(xùn)練極端情況流量瞬時(shí)并發(fā)達(dá)上千Tbps,需要考慮收斂比和訓(xùn)練效率之間平衡最優(yōu)比。二是RDMA長距傳輸對(duì)于丟包十分敏感,千分之一丟包會(huì)導(dǎo)致網(wǎng)絡(luò)吞吐率下降,影響算卡效率并造成資源浪費(fèi)。
北京電信通過新一代智算路由器打造智算廣域網(wǎng),采用新型流級(jí)擁塞控制技術(shù),可精準(zhǔn)快速識(shí)別網(wǎng)絡(luò)發(fā)生擁塞或故障,并基于流進(jìn)行擁塞控制,確保擁塞不擴(kuò)散到全網(wǎng)。同時(shí)采用路由器廣域無損調(diào)度和負(fù)載均衡技術(shù),避免數(shù)據(jù)丟包導(dǎo)致算卡計(jì)算效率下降,現(xiàn)網(wǎng)實(shí)際驗(yàn)證跨100公里長距算效僅降1%。
姚凌表示北京電信后續(xù)將持續(xù)探索多DC協(xié)同技術(shù)研究,目前正在聯(lián)合云公司開展智算拉遠(yuǎn)四階段驗(yàn)證;谙⑷阑劬壑悄苣P头⻊(wù)平臺(tái),驗(yàn)證百川等真實(shí)客戶模型拉遠(yuǎn)效果,逐步推進(jìn)智算拉遠(yuǎn)方案走向商用。