9月28日,由中國信息通信研究院主辦的2024中國算力大會·智算集成服務(wù)論壇在鄭州成功舉行。論壇邀請了產(chǎn)業(yè)內(nèi)權(quán)威專家代表,圍繞“AI算力基礎(chǔ)設(shè)施建設(shè)、算力平臺服務(wù)”等議題,分享企業(yè)級人工智能應(yīng)用實踐成果。中國移動集團網(wǎng)絡(luò)事業(yè)部處長蔡旭輝發(fā)表了題為《打造卓越智算運維新體系,推動AI規(guī)模應(yīng)用》的主題演講。蔡旭輝表示,隨著人工智能技術(shù)的飛速發(fā)展,中國移動立足產(chǎn)品、服務(wù)、生態(tài),構(gòu)建了全棧算智融合新體系。
“中國移動采用智算中心“N+X”架構(gòu)體系。其中N節(jié)點是用來滿足全網(wǎng)跨區(qū)域、跨省和AI大模型訓練,以及區(qū)域內(nèi)AI訓練、精調(diào)、并發(fā)業(yè)務(wù)的需求,X節(jié)點是面向邊緣產(chǎn)品和私有化產(chǎn)品的需求!辈绦褫x介紹到。中國移動在呼和浩特和哈爾濱建設(shè)了的超大規(guī)模智算中心節(jié)點,其中呼和浩特節(jié)點被評為央企十大超級工程。
中國移動集團網(wǎng)絡(luò)事業(yè)部處長蔡旭輝 發(fā)表主題演講
當前運營商業(yè)務(wù)已走進算力時代,區(qū)別于通用計算時代分層解耦的建設(shè)和運維模式,大規(guī)模的智算中心集群建設(shè)是極其復雜的系統(tǒng)工程。蔡旭輝列舉了智算中心組網(wǎng)中的多個痛點,如模型并行計算帶來的高頻訓練中斷問題、硬件定位業(yè)務(wù)恢復時間長、上下層全?梢曤y度大、跨組織協(xié)同響應(yīng)難、多廠商設(shè)備聯(lián)合調(diào)優(yōu)難等挑戰(zhàn)。
針對這些挑戰(zhàn),中國移動網(wǎng)絡(luò)事業(yè)部秉持運維規(guī)范化、標準化和確定性的理念,構(gòu)建了訓練中斷少、故障恢復快、服務(wù)支撐好的智算運營服務(wù)。包括重塑了智算運維質(zhì)量文化,打造高可用架構(gòu)方案,定義核心指標治理以及體系指標等,研發(fā)智能化的解決方案,進而提升運維效率。
在智算運維質(zhì)量文化方面,高度重視AI智算運維人才的培養(yǎng)和培訓,聯(lián)合華為和合作伙伴構(gòu)建了超過200人的專家團隊,建立了體系化的智算人才培養(yǎng)機制。同時,打通智算運維從客戶對接到故障處理的端到端系統(tǒng),并構(gòu)建總部、省公司、專業(yè)公司及客戶的協(xié)同運維機制,實現(xiàn)數(shù)據(jù)層的可視,進而提升運維效率。
在智算架構(gòu)方面,中國移動構(gòu)建了構(gòu)建端到端智算高可用架構(gòu),保障訓推任務(wù)全流程的穩(wěn)定性,并構(gòu)建了AI任務(wù)全鏈路監(jiān)控保障體系,提供120多種軟硬件健康檢查,分鐘級集群故障定位定界,全方位助力智算集群管控調(diào)優(yōu)。
在運維指標方面,中國移動圍繞智算運維探索可靠性黃金指標,構(gòu)建了80多個關(guān)鍵的指標體系。重點提升智算集群的模型算力運用率MFU,故障時長MTTR、長穩(wěn)訓練時長三個黃金指標,助力大模型訓練任務(wù)高效穩(wěn)定運行。同時,在運維服務(wù)方面,構(gòu)建了中國移動算力運維平臺,打造自主領(lǐng)先的AI+算力運維服務(wù),采用SRE運維模式,根據(jù)運維場景化需求構(gòu)建AI+全景觀測、智算運維智能體等能力。目前該平臺已經(jīng)納管通算智算設(shè)備近百萬臺,總體智算規(guī)模26.5億FLOPS,日均消息處理量是110億條,成為電信行業(yè)納管規(guī)模最大的算力運維平臺,支持中國移動智算中心的高效運維以及對客戶的服務(wù)。
蔡旭輝分享了中國移動與華為等合作伙伴在提升大規(guī)模智算集群運維關(guān)鍵指標方面的合作成果,并介紹在全球運營商最大的單體智算中心——呼和浩特智算中心應(yīng)用的智能運維方案,實現(xiàn)全域資源實時監(jiān)控和故障快速定位。同時,中國移動還在智算中心網(wǎng)絡(luò)故障診斷方面與高校深度合作,打造基于智算網(wǎng)絡(luò)的AI全腦網(wǎng)絡(luò)診斷智能體,覆蓋故障監(jiān)測與處理、性能優(yōu)化、配置管理、流量分析與管理等場景,有效降低了智算網(wǎng)絡(luò)的運維工作量。
最后,蔡旭輝倡議中國移動愿攜手合作伙伴,共創(chuàng)中國智算產(chǎn)業(yè)繁榮生態(tài),共同探索智能運維實踐并分享創(chuàng)新成果,共同構(gòu)建行業(yè)標準,合力攻堅共筑算力藍圖,加速推動AI大規(guī)模應(yīng)用。