近日,工業(yè)和信息化部印發(fā)通知,組織開(kāi)展算力強(qiáng)基揭榜行動(dòng)。將面向計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、應(yīng)用、綠色、安全等六大重點(diǎn)方向,發(fā)掘一批掌握關(guān)鍵核心技術(shù)、具備較強(qiáng)創(chuàng)新能力的企事業(yè)單位,突破一批標(biāo)志性技術(shù)產(chǎn)品和方案。
算力強(qiáng)基揭榜行動(dòng)任務(wù)榜單顯示,在計(jì)算環(huán)節(jié),支持云邊端算網(wǎng)協(xié)同管理系統(tǒng)、超大規(guī)模參數(shù)模型的訓(xùn)推一體化異構(gòu)智算平臺(tái)、異構(gòu)算力跨域任務(wù)編排系統(tǒng)、訓(xùn)推算力一體機(jī)、大規(guī)模異構(gòu)算力集群推理加速技術(shù)等五大發(fā)展方向。
在網(wǎng)絡(luò)環(huán)節(jié),重點(diǎn)支持高性能數(shù)據(jù)處理器(DPU)、基于RoCE的智算網(wǎng)絡(luò)、光交換智算網(wǎng)絡(luò)技術(shù)研究與驗(yàn)證、面向分布式智算中心的網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與驗(yàn)證等。
在應(yīng)用環(huán)節(jié),將把智算中心跨域互聯(lián)應(yīng)用、算力電力協(xié)同應(yīng)用、大規(guī)模通信業(yè)務(wù)場(chǎng)景中的算力應(yīng)用作為重點(diǎn)。
附:算力強(qiáng)基揭榜行動(dòng)任務(wù)榜單
一、計(jì)算
(一)云邊端算網(wǎng)協(xié)同管理系統(tǒng)
揭榜任務(wù):面向云邊端多層級(jí)算力環(huán)境,研發(fā)算網(wǎng)協(xié)同應(yīng)用管理系統(tǒng),設(shè)計(jì)面向不同應(yīng)用軟件架構(gòu)的管理機(jī)制,支持對(duì)不同架構(gòu)應(yīng)用軟件的統(tǒng)一管理;研發(fā)應(yīng)用軟件在算網(wǎng)協(xié)同中的自動(dòng)化構(gòu)建部署能力,支持應(yīng)用軟件的自動(dòng)構(gòu)建和分發(fā)部署;研究算網(wǎng)協(xié)同應(yīng)用系統(tǒng)的一體化觀測(cè)能力,降低運(yùn)維復(fù)雜度,提高復(fù)雜應(yīng)用軟件運(yùn)行的穩(wěn)定性和可靠性。
預(yù)期目標(biāo):到2026年,研制應(yīng)用軟件管理系統(tǒng),支持對(duì)傳統(tǒng)應(yīng)用軟件、云原生應(yīng)用軟件、AI應(yīng)用軟件、大數(shù)據(jù)應(yīng)用軟件等不少于5種應(yīng)用軟件的全生命周期管理。研究基于算網(wǎng)協(xié)同的分布式構(gòu)建和部署技術(shù),支持上述應(yīng)用軟件的自動(dòng)分發(fā)和跨算力節(jié)點(diǎn)部署,實(shí)現(xiàn)零人工介入。研發(fā)算網(wǎng)應(yīng)用一體化觀測(cè)功能,具備白盒化動(dòng)態(tài)分析以及智能故障根因定位能力。在不少于3個(gè)行業(yè)完成試點(diǎn)驗(yàn)證。
(二)支持超大規(guī)模參數(shù)模型的訓(xùn)推一體化異構(gòu)智算平臺(tái)
揭榜任務(wù):面向人工智能大模型訓(xùn)練和推理對(duì)計(jì)算資源的需求,研發(fā)支持超大規(guī)模參數(shù)模型的訓(xùn)練、推理一體化智算平臺(tái),包括資源調(diào)度策略、訓(xùn)推加速套件等,并可支持多種硬件架構(gòu),屏蔽底層硬件差異,提升超大規(guī)模模型在訓(xùn)練、推理過(guò)程中穩(wěn)定性、資源利用率和運(yùn)行效率。
預(yù)期目標(biāo):到2026年,研發(fā)一套支持萬(wàn)億參數(shù)模型的超大規(guī)模訓(xùn)推一體化智算平臺(tái),萬(wàn)卡環(huán)境下穩(wěn)定訓(xùn)練時(shí)間不低于30天,有效訓(xùn)練時(shí)長(zhǎng)不低于95%,訓(xùn)練效率較當(dāng)前主流水平提升不低于30%,推理效率提升不低于50%。支持主流深度學(xué)習(xí)框架,兼容多種硬件架構(gòu),并提供統(tǒng)一的編程接口和開(kāi)發(fā)環(huán)境,實(shí)現(xiàn)不低于10個(gè)行業(yè)用戶的落地驗(yàn)證。
(三)異構(gòu)算力跨域任務(wù)編排系統(tǒng)
揭榜任務(wù):針對(duì)跨域異構(gòu)算力協(xié)同,研發(fā)跨域異構(gòu)算力管理系統(tǒng),實(shí)現(xiàn)跨域異構(gòu)算力的管理和應(yīng)用。研發(fā)針對(duì)多樣性算力的規(guī)范化開(kāi)放互聯(lián)功能,支持對(duì)不同類型的異構(gòu)算力模型統(tǒng)一抽象封裝;研發(fā)跨域異構(gòu)算力的管理功能,支持對(duì)跨域異構(gòu)算力的統(tǒng)一管理和協(xié)同;研究跨域多主體算力的安全認(rèn)證和控制方法,保障跨域協(xié)同安全。
預(yù)期目標(biāo):到2026年,研發(fā)不少于6種跨域協(xié)同調(diào)度算法,支持?jǐn)?shù)據(jù)處理、函數(shù)計(jì)算、機(jī)器學(xué)習(xí)等不少于3個(gè)場(chǎng)景的計(jì)算任務(wù)部署,完成不少于5個(gè)跨域算力中心的統(tǒng)一管理。研發(fā)跨域多主體算力的安全認(rèn)證方法,支持云邊端等不同層級(jí)算力協(xié)同的安全要求。在不少于2個(gè)行業(yè)完成試點(diǎn)驗(yàn)證。
(四)訓(xùn)推算力一體機(jī)
揭榜任務(wù):面向人工智能訓(xùn)練、推理場(chǎng)景,研發(fā)基于基礎(chǔ)設(shè)施即服務(wù)(IaaS)和平臺(tái)即服務(wù)(PaaS)的高性能訓(xùn)推一體化解決方案,覆蓋對(duì)大模型開(kāi)發(fā)訓(xùn)練和部署推理的全流程,包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型評(píng)測(cè)和模型部署。同時(shí),支持大模型加密、攻擊防御等能力,解決針對(duì)大模型數(shù)據(jù)泄露、指令攻擊等安全問(wèn)題和風(fēng)險(xiǎn)。
預(yù)期目標(biāo):到2026年,研發(fā)支持至少3種指令集芯片的訓(xùn)推一體機(jī),針對(duì)至少5個(gè)行業(yè)開(kāi)展人工智能訓(xùn)推一體機(jī)應(yīng)用,為用戶提供多元化訓(xùn)推一體化服務(wù),并在至少10種不同的場(chǎng)景進(jìn)行人工智能訓(xùn)推一體機(jī)落地。
(五)大規(guī)模異構(gòu)算力集群推理加速技術(shù)
揭榜任務(wù):研發(fā)存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算的協(xié)同優(yōu)化技術(shù),通過(guò)模型加速、調(diào)度加速等方法實(shí)現(xiàn)大規(guī)模異構(gòu)算力集群在大模型推理方面的加速,從而支持更大的模型、更長(zhǎng)的上下文、更高的性能及更低的能耗,促進(jìn)算力芯片在大模型推理方面的更好應(yīng)用。
預(yù)期目標(biāo):到2026年,實(shí)現(xiàn)集群有效吞吐量5倍以上提升,實(shí)際應(yīng)用場(chǎng)景中可處理的請(qǐng)求數(shù)提升1倍以上,首字延遲性能提升1倍以上,芯片利用率提升50%以上。通過(guò)優(yōu)化算力中心計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的配比以及拓?fù)浣Y(jié)構(gòu)和系統(tǒng)調(diào)度策略,實(shí)現(xiàn)千卡以上異構(gòu)集群在推理加速領(lǐng)域的突破。
二、存儲(chǔ)
(六)磁光電融合存儲(chǔ)系統(tǒng)
揭榜任務(wù):針對(duì)單一存儲(chǔ)介質(zhì)難以滿足多樣化數(shù)據(jù)存儲(chǔ)需求的現(xiàn)狀,依托磁、光、電存儲(chǔ)在性能、壽命、功耗等方面的差異化特性,將磁、光、電存儲(chǔ)技術(shù)進(jìn)行融合,研發(fā)磁光電融合存儲(chǔ)系統(tǒng),構(gòu)建基于固態(tài)硬盤(pán)(SSD)、機(jī)械硬盤(pán)(HDD)和光存儲(chǔ)的多級(jí)存儲(chǔ)架構(gòu)。根據(jù)業(yè)務(wù)特征,將數(shù)據(jù)保存在不同級(jí)別的存儲(chǔ)設(shè)備中,實(shí)現(xiàn)海量數(shù)據(jù)的集中、統(tǒng)一存儲(chǔ)管理,支撐算力中心高效、低碳、安全持續(xù)發(fā)展。
預(yù)期目標(biāo):到2026年,研發(fā)磁、光、電融合存儲(chǔ)系統(tǒng),支持適配分布式文件、分布式塊和分布式對(duì)象等至少3種存儲(chǔ)類型,系統(tǒng)可以根據(jù)數(shù)據(jù)的訪問(wèn)時(shí)間、訪問(wèn)頻率、文件屬性等自定義分級(jí)策略,根據(jù)業(yè)務(wù)負(fù)載動(dòng)態(tài)調(diào)整遷移。系統(tǒng)可通過(guò)介質(zhì)安全、系統(tǒng)安全、軟件安全等夯實(shí)底層安全能力,通過(guò)防勒索、加密算法、遠(yuǎn)程監(jiān)控、光存儲(chǔ)預(yù)警檢測(cè)等增強(qiáng)數(shù)據(jù)安全能力。打造磁光電融合存儲(chǔ)應(yīng)用示范,完成至少20個(gè)業(yè)務(wù)系統(tǒng)應(yīng)用,實(shí)現(xiàn)至少4個(gè)東部地區(qū)數(shù)據(jù)流動(dòng)至西部磁光電存儲(chǔ)系統(tǒng),且數(shù)據(jù)存儲(chǔ)量不少于10PB。
(七)存儲(chǔ)調(diào)度管理及應(yīng)用技術(shù)
揭榜任務(wù):針對(duì)海量數(shù)據(jù)存儲(chǔ)和算力孤島問(wèn)題,研發(fā)跨域多算的存力調(diào)度、存網(wǎng)編排和存算網(wǎng)一體化系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的智能冷熱分級(jí)、應(yīng)用的跨域無(wú)感訪問(wèn)等能力,有效降低成本、提高性能和支撐業(yè)務(wù)。系統(tǒng)具備資源規(guī)劃、策略調(diào)整能力,可優(yōu)化和調(diào)整全網(wǎng)數(shù)據(jù)存儲(chǔ)布局,實(shí)現(xiàn)對(duì)不斷變化的需求的適應(yīng)。
預(yù)期目標(biāo):到2026年,研制具備高效、可擴(kuò)展性的存儲(chǔ)系統(tǒng),基于智能算法,對(duì)數(shù)據(jù)進(jìn)行分析和調(diào)度,實(shí)現(xiàn)應(yīng)用無(wú)感訪問(wèn)和智能流動(dòng)。研究存力調(diào)度策略,使數(shù)據(jù)召回率控制在30%以下;研究基于潮汐網(wǎng)絡(luò)調(diào)度算法,實(shí)現(xiàn)網(wǎng)絡(luò)帶寬利用率提升50%以上,達(dá)到存網(wǎng)一體的目標(biāo)。集成存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)的能力,支持存算網(wǎng)一體化調(diào)度,在算力中心資源池落地應(yīng)用。
三、網(wǎng)絡(luò)
(八)高性能數(shù)據(jù)處理器(DPU)
揭榜任務(wù):開(kāi)展基于芯粒(Chiplet)和第五代精簡(jiǎn)指令集(RISC-V)技術(shù)的軟硬件一體DPU芯片技術(shù)研究,支持算力中心、智算中心、超算中心場(chǎng)景所需的超高帶寬和超低時(shí)延,突破Chiplet異構(gòu)芯片封裝技術(shù)、高速Serdes通信、大規(guī)模無(wú)損網(wǎng)絡(luò)擁塞算法、硬件密碼算法、高性能虛擬化、硬件可編程等技術(shù),實(shí)現(xiàn)基于ARM、X86、RISC-V等異構(gòu)核心的DPU應(yīng)用,提升算力中心基礎(chǔ)設(shè)施處理能力和數(shù)據(jù)傳輸能效比。
預(yù)期目標(biāo):到2026年,完成超高性能DPU芯片研發(fā)工作,吞吐能力達(dá)到400Gbps,單向流量時(shí)延不高于30us,支持與國(guó)內(nèi)外主流CPU、GPU芯片平臺(tái)的適配,支持主流操作系統(tǒng)兼容,支持?jǐn)?shù)據(jù)報(bào)文硬件處理邏輯可編程。
(九)基于RoCE的智算網(wǎng)絡(luò)
揭榜任務(wù):面向RoCE網(wǎng)絡(luò)開(kāi)展設(shè)備及管控系統(tǒng)研發(fā),通過(guò)提高設(shè)備帶寬、優(yōu)化負(fù)載均衡算法、強(qiáng)化網(wǎng)絡(luò)流量規(guī)劃及運(yùn)維能力等方式,提升RoCE網(wǎng)絡(luò)的吞吐量和時(shí)延性能。研制新一代智能化管控工具,引入AI大模型能力,簡(jiǎn)化RoCE網(wǎng)絡(luò)的部署和配置工作,實(shí)現(xiàn)全局、多維度的可視化運(yùn)維。在網(wǎng)絡(luò)波動(dòng)、業(yè)務(wù)變更、故障等情況下,網(wǎng)絡(luò)參數(shù)自動(dòng)調(diào)整,流量快速切換,從而達(dá)到提升網(wǎng)絡(luò)效率和降低運(yùn)維成本的目標(biāo)。
預(yù)期目標(biāo):到2026年,實(shí)現(xiàn)新型RoCE網(wǎng)絡(luò)整體方案的商用部署,網(wǎng)絡(luò)性能提升10%以上。通過(guò)智能化管控及運(yùn)維工具,網(wǎng)絡(luò)部署難度大幅降低,運(yùn)維效率提升50%以上,可支撐更大規(guī)模部署和應(yīng)用。
(十)光交換智算網(wǎng)絡(luò)技術(shù)研究與驗(yàn)證
揭榜任務(wù):面向智算集群低功耗、高帶寬、低延遲技術(shù)需求,開(kāi)展智算集群光交換組網(wǎng)關(guān)鍵技術(shù)研究與驗(yàn)證,重點(diǎn)突破智算集群光交換組網(wǎng)、路由協(xié)議適配等關(guān)鍵技術(shù)。針對(duì)智算集群的功能、性能、可靠性和擴(kuò)展性等要求,研究光拓?fù)溆成、光電混合路由、多路徑?fù)載均衡等技術(shù)。
預(yù)期目標(biāo):到2026年,實(shí)現(xiàn)支持智算集群的易操作、高可靠、可平滑過(guò)渡升級(jí)的光網(wǎng)絡(luò),支持人工智能等關(guān)鍵業(yè)務(wù)承載;光交換設(shè)備單端口速率支持100GE/400GE/800GE,交換容量彈性可擴(kuò)展,可支持不少于3種異構(gòu)算力資源互聯(lián),在不少于2個(gè)智算集群完成驗(yàn)證,并完成不少于3種智算業(yè)務(wù)承載驗(yàn)證。
(十一)面向分布式智算中心的網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與驗(yàn)證
揭榜任務(wù):針對(duì)智算集群從集中式向分布式部署探索的趨勢(shì),攻關(guān)算力中心間網(wǎng)絡(luò)技術(shù),研發(fā)面向智算中心間的高可靠傳輸設(shè)備,構(gòu)建智算中心間超大容量、超低時(shí)延、超高可靠光電協(xié)同網(wǎng)絡(luò),實(shí)現(xiàn)智算中心高速、可靠互聯(lián)。
預(yù)期目標(biāo):到2026年,突破智算中心間超大容量、超高可靠網(wǎng)絡(luò)傳輸關(guān)鍵技術(shù),研制面向智算中心間網(wǎng)絡(luò)的傳輸設(shè)備,單波速率不低于1.6Tbps,設(shè)備時(shí)延不超過(guò)30us,支撐分布式智算中心間業(yè)務(wù)的高可靠傳輸。
四、應(yīng)用
(十二)智算中心跨域互聯(lián)應(yīng)用
揭榜任務(wù):優(yōu)化人工智能算力基礎(chǔ)設(shè)施布局,構(gòu)建跨地域互補(bǔ)、協(xié)同算力調(diào)度的超大規(guī)模人工智能算力服務(wù)能力。加強(qiáng)與人工智能芯片廠商的兼容適配,構(gòu)筑大規(guī)模高性能異構(gòu)算力池,提供面向大模型訓(xùn)推場(chǎng)景深度優(yōu)化的彈性調(diào)度、彈性容錯(cuò)、高資源利用率的人工智能算力服務(wù)。
預(yù)期目標(biāo):到2026年,形成覆蓋5個(gè)以上全國(guó)重點(diǎn)算力樞紐節(jié)點(diǎn)的人工智能算力中心,支持跨地域、跨云的算力需求感知和動(dòng)態(tài)調(diào)度,完成3款以上算力芯片適配,聚焦大模型訓(xùn)練和推理場(chǎng)景,構(gòu)建大規(guī)模、高性能、彈性調(diào)度、高容錯(cuò)的訓(xùn)推一體算力資源池,具備分鐘級(jí)斷點(diǎn)續(xù)訓(xùn)能力,支持萬(wàn)卡級(jí)別并行訓(xùn)練。
(十三)算力電力協(xié)同應(yīng)用
揭榜任務(wù):研發(fā)基于算力調(diào)度技術(shù)與能源大模型的多云異構(gòu)算電協(xié)同管理平臺(tái),構(gòu)建基于數(shù)據(jù)驅(qū)動(dòng)的算力集群用電負(fù)荷特性模型、基于計(jì)算任務(wù)的時(shí)空轉(zhuǎn)移特性的能源大模型,推動(dòng)算力預(yù)測(cè)與調(diào)度技術(shù)在智算中心應(yīng)用落地,提升整體資源利用率,基于新能源、新型儲(chǔ)能系統(tǒng)開(kāi)展算力負(fù)荷與電力系統(tǒng)的協(xié)同優(yōu)化,實(shí)現(xiàn)精準(zhǔn)、動(dòng)態(tài)、實(shí)時(shí)的能源調(diào)度與交易,實(shí)現(xiàn)算力與電力等能源的深度協(xié)同。
預(yù)期目標(biāo):到2026年,實(shí)現(xiàn)智算場(chǎng)景下能源與算力全鏈路的數(shù)據(jù)穿透及流程整合,構(gòu)建“算”隨“電”動(dòng)的直接控制及間接引導(dǎo)機(jī)制,實(shí)現(xiàn)算力需求預(yù)測(cè)精準(zhǔn)度達(dá)到70%、集群有效負(fù)載率提升25%以上,智算中心整體集群資源利用率提高10%。結(jié)合算力集群用電數(shù)據(jù)、時(shí)間周期、氣象數(shù)據(jù)、工作負(fù)載等多種因素,實(shí)現(xiàn)“電”隨“算”用的能源效率優(yōu)化與算效提升,實(shí)現(xiàn)基礎(chǔ)設(shè)施用能決策精準(zhǔn)度85%以上,響應(yīng)時(shí)效性達(dá)到提前15分鐘響應(yīng)級(jí)別,智算中心整體算力能效水平提升30%,算力中心用電成本降低5%以上。
(十四)大規(guī)模通信業(yè)務(wù)場(chǎng)景中的算力應(yīng)用
揭榜任務(wù):圍繞網(wǎng)絡(luò)功能虛擬化(NFV)系統(tǒng)架構(gòu),針對(duì)NFV中網(wǎng)絡(luò)性能、資源利用和靈活展性等方面的挑戰(zhàn),研發(fā)面向NFV架構(gòu)的高性能虛擬化、智能化網(wǎng)絡(luò)管理和資源編排算法等技術(shù)和系統(tǒng),突破虛擬化層與硬件加速器(如FPGA、DPU、GPU)之間的協(xié)同能力。
預(yù)期目標(biāo):到2026年,NFV算力平臺(tái)系統(tǒng)中實(shí)現(xiàn)對(duì)虛擬化網(wǎng)絡(luò)功能的智能調(diào)度,支持異構(gòu)集群部署、動(dòng)態(tài)擴(kuò)展,資源動(dòng)態(tài)分配,虛擬化資源利用率提升20%以上;支持GPU、FPGA等硬件加速器的虛擬化調(diào)度,加速網(wǎng)絡(luò)處理性能至Tbps以上;支持智能化網(wǎng)絡(luò)虛擬化功能管理,提升NFV系統(tǒng)的自動(dòng)化運(yùn)維能力和管理效能,故障修復(fù)時(shí)間縮減不低于30%。
五、綠色低碳
(十五)綠色算力技術(shù)研究及應(yīng)用
揭榜任務(wù):圍繞算力的綠色節(jié)能技術(shù)突破,面向算力中的任務(wù)調(diào)度特性、能源使用模式、負(fù)載均衡要求等關(guān)鍵要素,研發(fā)適應(yīng)于綠色計(jì)算的動(dòng)態(tài)資源調(diào)度算法、能耗優(yōu)化管理系統(tǒng),以及面向多場(chǎng)景的協(xié)同節(jié)能機(jī)制,突破節(jié)能算法的智能化程度,提升算力網(wǎng)絡(luò)中多節(jié)點(diǎn)的能源利用效率。
預(yù)期目標(biāo):到2026年,能耗管理系統(tǒng)實(shí)現(xiàn)對(duì)算力中心和網(wǎng)絡(luò)節(jié)點(diǎn)的實(shí)時(shí)監(jiān)控與節(jié)能調(diào)度,通過(guò)計(jì)算節(jié)點(diǎn)支持動(dòng)態(tài)調(diào)頻、動(dòng)態(tài)電壓調(diào)節(jié),單節(jié)點(diǎn)平均能耗降低30%以上,滿足AI推理等應(yīng)用需求。
(十六)企業(yè)綠色計(jì)算碳感知平臺(tái)
揭榜任務(wù):建立企業(yè)算力中心碳排放度量體系,能夠?qū)崟r(shí)、精準(zhǔn)地統(tǒng)計(jì)企業(yè)各個(gè)算力中心碳排放,并能將碳排放量分?jǐn)偟讲煌臉I(yè)務(wù)部門(mén)、應(yīng)用場(chǎng)景和工作負(fù)載,實(shí)現(xiàn)精細(xì)化的碳排放的管理。同時(shí),基于碳排放的數(shù)據(jù),實(shí)現(xiàn)碳感知調(diào)度能力,通過(guò)在保證業(yè)務(wù)體驗(yàn)和連續(xù)性的情況下將工作負(fù)載調(diào)度到更加低碳的算力中心,進(jìn)一步降低碳排放。
預(yù)期目標(biāo):到2026年,圍繞千萬(wàn)核級(jí)別跨域的算力中心,構(gòu)建企業(yè)級(jí)綠色計(jì)算碳感知平臺(tái),形成一套行業(yè)通用的、可精確度量不同類型工作負(fù)載碳排放的技術(shù)方法和指標(biāo)體系,通過(guò)生態(tài)共建形成綠色度量衡標(biāo)準(zhǔn)體系。構(gòu)建碳感知調(diào)度能力,達(dá)到算力中心可再生能源比例30%的目標(biāo)。
(十七)冷板式液冷原生整機(jī)柜服務(wù)器
揭榜任務(wù):面向新一代液冷算力中心,研發(fā)冷板式液冷整機(jī)柜,包括液冷服務(wù)器節(jié)點(diǎn)、無(wú)源液冷門(mén)等,突破高密算力、多樣性算力的散熱技術(shù)及架構(gòu)要求,實(shí)現(xiàn)支持供電總線、網(wǎng)絡(luò)互聯(lián)總線、液冷管路可盲插運(yùn)維的液冷設(shè)備,具備液冷機(jī)柜及液冷服務(wù)器等多級(jí)漏液檢測(cè)能力,有效降低業(yè)務(wù)中斷范圍與損失。
預(yù)期目標(biāo):到2026年,液冷整機(jī)柜實(shí)現(xiàn)100%液冷散熱,制冷PUE低于1.15。整機(jī)柜服務(wù)器內(nèi)部實(shí)現(xiàn)全盲插設(shè)計(jì),管理模塊可實(shí)現(xiàn)整機(jī)柜功耗管理、漏液檢測(cè)、資產(chǎn)管理等功能;通用算力單柜功率不低于20kW,智能算力單機(jī)柜功率不低于30kW,實(shí)現(xiàn)不少于500臺(tái)液冷節(jié)點(diǎn)的規(guī)模落地應(yīng)用。
(十八)算力中心節(jié)能調(diào)優(yōu)平臺(tái)
揭榜任務(wù):研制高精確度、高仿真效率、多場(chǎng)景覆蓋的算力中心PUE仿真平臺(tái),突破物理機(jī)理模型構(gòu)建、仿真引擎集群、模型自動(dòng)生成等關(guān)鍵技術(shù),實(shí)現(xiàn)對(duì)算力中心不同運(yùn)行狀態(tài)下細(xì)分時(shí)間顆粒度PUE的快速、精準(zhǔn)評(píng)估。研發(fā)基于大數(shù)據(jù)分析技術(shù)的算力中心制冷系統(tǒng)AI節(jié)能優(yōu)化系統(tǒng),通過(guò)自動(dòng)化數(shù)據(jù)治理、自動(dòng)推理等關(guān)鍵技術(shù),準(zhǔn)確匹配制冷需求,在滿足可靠性要求條件下實(shí)現(xiàn)算力中心制冷系統(tǒng)整體動(dòng)態(tài)實(shí)時(shí)優(yōu)化,優(yōu)化算力中心PUE。
預(yù)期目標(biāo):到2026年,支持液冷、水冷等至少2類典型制冷場(chǎng)景進(jìn)行能效優(yōu)化,支持制冷系統(tǒng)和配電系統(tǒng)聯(lián)合仿真,系統(tǒng)可輸出不同負(fù)載及運(yùn)行工況條件下的PUE運(yùn)行曲線、系統(tǒng)設(shè)備運(yùn)行模擬工況等參數(shù),PUE仿真精度達(dá)到97%以上;谀苄(yōu)化平臺(tái),支持AI自動(dòng)推理,小時(shí)級(jí)策略自動(dòng)下發(fā),實(shí)現(xiàn)對(duì)算力中心能耗的可視、可管、可控。通過(guò)AI能效優(yōu)化,實(shí)現(xiàn)算力中心PUE降低5%以上,通過(guò)算力中心基礎(chǔ)設(shè)施與IT聯(lián)動(dòng)節(jié)能,實(shí)現(xiàn)總能耗降低5%以上,在5個(gè)以上算力中心落地應(yīng)用。
(十九)新型制冷系統(tǒng)
揭榜任務(wù):研發(fā)人工智能節(jié)能系統(tǒng),針對(duì)算力中心基礎(chǔ)設(shè)施的運(yùn)行調(diào)控和環(huán)境監(jiān)測(cè)。提出全新自適應(yīng)算法,突破原有常見(jiàn)算法的局限性,提升數(shù)據(jù)的分析和處理效果,搭建基于專家經(jīng)驗(yàn)的人工智能算法數(shù)據(jù)庫(kù),提升包括能耗管理、能源調(diào)度、安全監(jiān)測(cè)、故障診斷、輔助運(yùn)維等功能的節(jié)能性、可靠性、經(jīng)濟(jì)性。
預(yù)期目標(biāo):到2026年,在滿足制冷要求的基礎(chǔ)上,提高冷卻系統(tǒng)的可靠性和自適應(yīng)性,提高能源使用效率、水資源使用效率和運(yùn)維效率,其中節(jié)電率提升10%以上。支持冷卻系統(tǒng)數(shù)據(jù)采集、標(biāo)注、治理、存儲(chǔ),具備系統(tǒng)運(yùn)行異常告警、告警收斂、自動(dòng)診斷、遠(yuǎn)程通信、自動(dòng)控制等功能,支持冷卻系統(tǒng)智能化調(diào)優(yōu)、智能化控制的核心能力,并開(kāi)展不少于5個(gè)實(shí)際業(yè)務(wù)場(chǎng)景所提供的AI節(jié)能調(diào)優(yōu)案例。
六、安全可靠
(二十)算力中心智能運(yùn)維機(jī)器人
揭榜任務(wù):研發(fā)算力中心智能運(yùn)維機(jī)器人以及智能機(jī)器人管理平臺(tái),基于云邊端三層架構(gòu),實(shí)現(xiàn)智能機(jī)器人在多層、多房間樓宇機(jī)房?jī)?nèi)的設(shè)備設(shè)施識(shí)別、多模態(tài)環(huán)境感知、精準(zhǔn)空間定位、智能人機(jī)協(xié)同、多任務(wù)聯(lián)合調(diào)度等方面的技術(shù)與算法優(yōu)化。支撐機(jī)器人在算力中心設(shè)施運(yùn)維和IT運(yùn)營(yíng)等典型場(chǎng)景的應(yīng)用,提升巡檢質(zhì)量,促進(jìn)算力中心運(yùn)維、運(yùn)營(yíng)的降本增效。
預(yù)期目標(biāo):到2026年,實(shí)現(xiàn)大型算力中心內(nèi)智能機(jī)器人的多機(jī)房、多樓層協(xié)同應(yīng)用部署;機(jī)器人巡檢任務(wù)成功率不低于95%,設(shè)備識(shí)別準(zhǔn)確率達(dá)到97%,環(huán)境巡檢召回率不低于90%,保障算力中心巡檢業(yè)務(wù)持續(xù)運(yùn)行。實(shí)現(xiàn)云邊端協(xié)同調(diào)度,支持不同場(chǎng)景下的自主作業(yè),提高任務(wù)并發(fā)執(zhí)行效率,促進(jìn)穩(wěn)定、安全、可靠、可控的算力中心智能運(yùn)維體系建設(shè)。
(二十一)云邊端一體化智能監(jiān)測(cè)平臺(tái)
揭榜任務(wù):開(kāi)發(fā)高性能云邊端一體化系統(tǒng),研發(fā)以智能化終端或機(jī)器人為硬件載體、以多算法模型融合和平臺(tái)工具為軟件載體的軟硬結(jié)合的集中監(jiān)測(cè)管理與運(yùn)維巡檢方案。突破多層級(jí)自動(dòng)化運(yùn)維、多維度診斷、多平臺(tái)覆蓋、多模型量化等關(guān)鍵技術(shù)。構(gòu)建綜合運(yùn)維健康度數(shù)字化評(píng)估體系與模型,實(shí)現(xiàn)算力設(shè)施從規(guī)劃、設(shè)計(jì)、建設(shè)、部署、運(yùn)行、維護(hù)的全生命周期數(shù)字化管理。
預(yù)期目標(biāo):到2026年,建立大規(guī)模集群的智能化運(yùn)維能力,設(shè)備實(shí)現(xiàn)跨平臺(tái)及系統(tǒng)穩(wěn)定性風(fēng)險(xiǎn)和安全風(fēng)險(xiǎn)識(shí)別能力,綜合視頻識(shí)別技術(shù)等,結(jié)構(gòu)化告警收斂推送,準(zhǔn)確率超過(guò)98%。算力設(shè)施全生命周期數(shù)字化聯(lián)動(dòng),平臺(tái)自動(dòng)化流程推進(jìn),實(shí)現(xiàn)云端直控覆蓋超10棟算力中心,落地?cái)?shù)字化算力中心健康度評(píng)估,智能化終端或機(jī)器人的自驅(qū)動(dòng)巡檢,視頻流識(shí)別與告警的聯(lián)動(dòng),系統(tǒng)的智能化運(yùn)維問(wèn)答,并保障業(yè)務(wù)服務(wù)級(jí)別協(xié)議(SLA)達(dá)標(biāo)率99%以上。