12月23日上午,以“打造超彈性無損智算IP廣域網(wǎng),加速邁向智能時(shí)代”為主題的智算IP廣域網(wǎng)產(chǎn)業(yè)交流會(huì)在北京成功舉辦。會(huì)上,中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所互聯(lián)網(wǎng)中心主任高巍進(jìn)行了《智算廣域網(wǎng)發(fā)展思考》的分享。
高巍介紹到,人工智能是全球關(guān)注的產(chǎn)業(yè)熱點(diǎn),在政策和市場(chǎng)的驅(qū)動(dòng)下,國內(nèi)建設(shè)了很多智算資源池,尤其運(yùn)營商在全國各地布局多級(jí)算力資源池體系,如何充分發(fā)揮這些智算資源的作用,使其成為各個(gè)行業(yè)能夠使用的智算服務(wù),成為了當(dāng)務(wù)之急,在這里網(wǎng)絡(luò)需要發(fā)揮重要作用,“網(wǎng)效”與“算效”需要提升互促。
智算業(yè)務(wù)對(duì)網(wǎng)絡(luò)的要求相比傳統(tǒng)網(wǎng)絡(luò)有很大差別。首先,業(yè)務(wù)特征不同決定了對(duì)網(wǎng)絡(luò)質(zhì)量要求不同,例如,傳統(tǒng)互聯(lián)網(wǎng)業(yè)務(wù)對(duì)丟包的容忍度在10-2級(jí)別,而以RDMA協(xié)議承載的智算業(yè)務(wù)對(duì)網(wǎng)絡(luò)丟包的容忍度在10-7級(jí)別,差了5個(gè)數(shù)量級(jí)。其次是流量模型不同,傳統(tǒng)業(yè)務(wù)以海量小流量(“螞蟻流”)為主,現(xiàn)有網(wǎng)絡(luò)的負(fù)載均衡也是以此前提來設(shè)計(jì)的,而智算業(yè)務(wù)是GB級(jí)的大流量(“大象流”),將對(duì)網(wǎng)絡(luò)帶寬利用率造成很大的挑戰(zhàn)。再次,網(wǎng)絡(luò)服務(wù)模式需求不同,當(dāng)前企業(yè)更多是使用固定帶寬的網(wǎng)絡(luò)連接服務(wù),而智算業(yè)務(wù)的數(shù)據(jù)傳送往往是需要短時(shí)大帶寬,對(duì)網(wǎng)絡(luò)彈性服務(wù)的要求更高。如何通過提高網(wǎng)效,充分發(fā)揮算效是現(xiàn)在非常重要的命題。
智算廣域網(wǎng)是支撐人工智能計(jì)算業(yè)務(wù)全生命周期的廣域網(wǎng)絡(luò),是對(duì)運(yùn)營商城域網(wǎng)和骨干網(wǎng)的全面升級(jí),包括支撐企業(yè)/行業(yè)大量樣本傳送的入算網(wǎng)絡(luò),以及支撐智算中心之間協(xié)同訓(xùn)練(參數(shù)面互聯(lián))的算間網(wǎng)絡(luò),將支撐全社會(huì)智算資源的高效利用與服務(wù)。
當(dāng)前國內(nèi)外運(yùn)營商和互聯(lián)網(wǎng)紛紛啟動(dòng)智算廣域網(wǎng)相關(guān)的研究和實(shí)踐,相關(guān)技術(shù)也成為IETF、ITU-T等國際標(biāo)準(zhǔn)組織的熱點(diǎn),國內(nèi)通信標(biāo)準(zhǔn)化協(xié)會(huì)網(wǎng)絡(luò)和業(yè)務(wù)技術(shù)委員會(huì)也開展了相關(guān)的標(biāo)準(zhǔn)研制,智算廣域網(wǎng)絡(luò)標(biāo)準(zhǔn)行標(biāo)立項(xiàng)5項(xiàng),國標(biāo)《智算廣域網(wǎng)絡(luò)總體技術(shù)要求》已通過立項(xiàng)預(yù)討論。
高巍介紹了智算廣域網(wǎng)的主要場(chǎng)景,包括:1、大樣本的快速入算,通過網(wǎng)絡(luò)帶寬動(dòng)態(tài)調(diào)度和對(duì)大象流的有效負(fù)載均衡,實(shí)現(xiàn)海量樣本數(shù)據(jù)的快速入算,充分利用高帶寬的網(wǎng)絡(luò)資源。2、敏感樣本的邊傳邊訓(xùn),一些行業(yè)樣本數(shù)據(jù)對(duì)數(shù)據(jù)安全要求很高,不希望第三方算力資源進(jìn)行數(shù)據(jù)的存儲(chǔ),需要網(wǎng)絡(luò)實(shí)現(xiàn)長距離廣域無損傳輸,直接通過RDMA協(xié)議進(jìn)入算力資源的內(nèi)存進(jìn)行訓(xùn)練計(jì)算。3、跨DC協(xié)同訓(xùn)練,隨著大模型參數(shù)快速增長,單體DC難以滿足算力或能源的需求,需要廣域網(wǎng)絡(luò)連接不同的數(shù)據(jù)中心進(jìn)行協(xié)同訓(xùn)練,對(duì)網(wǎng)絡(luò)帶寬需求很大,且需要保證嚴(yán)格無損,目前業(yè)界正在開展相關(guān)實(shí)驗(yàn)。4、業(yè)務(wù)推理及模型分發(fā),需要網(wǎng)絡(luò)帶寬靈活調(diào)整,并具備安全隔離能力。
未來智算廣域網(wǎng)的重點(diǎn)技術(shù)研究方向包括廣域無損調(diào)度算法、跨DC網(wǎng)絡(luò)的精準(zhǔn)流控、廣域擁塞控制、智能流量識(shí)別與拆分、智算業(yè)務(wù)可視運(yùn)維等等。
最后,面向智算廣域網(wǎng)未來的發(fā)展,高巍建議產(chǎn)業(yè)界共同開展技術(shù)創(chuàng)新,凝聚產(chǎn)業(yè)共識(shí),加快相關(guān)規(guī)范標(biāo)準(zhǔn)的研究,并通過向業(yè)界廣泛征集典型案例,不斷積累經(jīng)驗(yàn),相互借鑒,加快智算廣域網(wǎng)產(chǎn)業(yè)和業(yè)務(wù)的成熟。