飛象網(wǎng)訊(魏德齡/文)“韓信用兵,多多益善”想必是一個膾炙人口的典故,淮陰侯當(dāng)時用此來形容自己的領(lǐng)兵才能,當(dāng)然隨之還有高祖的“善將將”。而“多多益善”與“善將將”的優(yōu)勢在AI浪潮之下,也正在變?yōu)橐环N行業(yè)所必須的能力。
有分析人士判斷,AI市場將會迎來一波長達十年以上的熱潮,AIGC在企業(yè)IT中的占比投入一定會越來越高,AI對于需求的刺激將是之前10年的10倍-100倍,算力需求也將隨之出現(xiàn)等量的增長。而“多”恰恰是能夠滿足需求的保障,因為不同的算力需求其背后所調(diào)用的超算中心硬件資源也并不相同,正所謂“更多選擇,更多歡笑”,已經(jīng)實現(xiàn)盈利的國家超算濟南中心就是一個很好的案例。
更多選擇,更多歡笑
以目前常見的幾類AI用例需求而言,很多高校進行的傳統(tǒng)科學(xué)計算類應(yīng)用就需要HPC,才能完成如仿真、模擬、洋流預(yù)測、基因檢測等工作;對于傳統(tǒng)的政務(wù)云業(yè)務(wù)、傳統(tǒng)CRM/ERP企業(yè)數(shù)字化應(yīng)用則屬于傳統(tǒng)云計算需求,就需要調(diào)用CPU類資源;目前大熱的涉及道路識別、車牌識別這樣的智慧城市類應(yīng)用則需要調(diào)用GPU的能力。業(yè)務(wù)的多元需求恰恰決定了對于多元算力的需求。
據(jù)悉,僅在三年前國家超算濟南中心就已經(jīng)擁有1000P算力與300PB以上的存儲,是當(dāng)時全亞洲最大的算力中心之一,包括了HPC超算、以CPU為主的傳統(tǒng)云計算,以GPU為主的智算,其中智算兼顧了國產(chǎn)化需求,引入了一部分國產(chǎn)GPU,進而成為了一個既擁有多元算力,又具備異構(gòu)算力能力的超算中心。
“投資建設(shè)一個平臺后產(chǎn)生的效益取決于平臺能力,因為平臺能力越強,能支撐客戶的業(yè)務(wù)種類就越多?蛻粼蕉啵J皆角逦!比昵皡⑴c服務(wù)國家超算濟南中心的青云科技總裁林源向媒體解釋了緣何需要異構(gòu)計算與多元算力。
反之,如果不擁抱多元算力,僅僅建設(shè)一個只支持某一種硬件算力為核心的超算中心,往往會后續(xù)實際運營中面臨尷尬。例如,國內(nèi)某大廠曾在某地建了一個計算中心,但由于只支持某一個GPU,造成當(dāng)應(yīng)用需求到來時,卻出現(xiàn)了不兼容的問題,導(dǎo)致出現(xiàn)客戶面變窄的問題。
不過,如何調(diào)度如1000P的算力與300PB存儲,將多元與異構(gòu)整合在一起,讓超算中心實現(xiàn)高效運營,如同韓信用兵一般,實現(xiàn)多多益善,而不是陷入管理困局,同樣是一個需要面對的問題。青云科技作為國家超算濟南中心建設(shè)的參與者,恰恰為其提供了統(tǒng)領(lǐng)全局的能力,這就需要提到該公司近日發(fā)布的新產(chǎn)品—AI算力調(diào)度平臺。
青云AI,多多益善
“我們已經(jīng)在國家超算濟南中心的實踐成功,證明青云平臺具備能力、干過,也干成了。”林源專門表達了對于該產(chǎn)品的信心。青云AI算力調(diào)度平臺作為計算中心運營者的關(guān)鍵工具,可以建立從建設(shè)到運營的閉環(huán),在國家超算濟南中心的案例中,不僅三年前就成功進行了實踐,還助力其不僅運營得好,還實現(xiàn)了盈利。
青云AI算力調(diào)度平臺恰恰具備了如“韓信用兵,多多益善”的管理能力,可實現(xiàn)對于GPU算力、HPC算力、多存儲系統(tǒng)、模型資源、數(shù)據(jù)資源的多元資源統(tǒng)一平臺管理,實現(xiàn)算力平臺自動資源。還可根據(jù)不同的行業(yè)需求,通過平臺進行資源分發(fā),具備分布式調(diào)度與管理能力,自動分配和管理算力資源,大幅縮短任務(wù)執(zhí)行時間,提高工作效率,讓客戶專注于業(yè)務(wù)創(chuàng)新和應(yīng)用開發(fā)。
平臺的管理操作也易如反掌,通過統(tǒng)一運營和運維管理平臺,實現(xiàn)多種服務(wù)場景的運營化服務(wù)的后時,規(guī)范化高效運維,幫助用戶實現(xiàn)精細化運營。青云會為平臺管理員交付一個可視化的大屏管理界面,可輕松瀏覽全國的上千臺算力資源與存儲。以國家超算濟南中心為例,后端其實只需要10-20人的團隊,就能實現(xiàn)對于軟件的運維,并解決客戶的各類問題。
“青云通過一套運營運維平臺,讓其定價、打折、促銷等,只需要在頁面上點擊按鈕即可!鼻嘣瓶萍籍a(chǎn)品經(jīng)理苗慧表示青云AI算力調(diào)度平臺相比傳統(tǒng)云計算搞申請表之類的日常流程操作,在運維效率上有著明顯優(yōu)勢。
與此同時,青云AI算力調(diào)度平臺還可幫助客戶解決網(wǎng)絡(luò)交換速度、環(huán)境搭建、多業(yè)務(wù)整合等問題。
除了大幅提升平臺運維人員的管理能力外,對于平臺用戶而言,青云也能進一步提升AI落地的開發(fā)效率。面向算法工程師,青云提供的開發(fā)主機,已經(jīng)內(nèi)置了一些開發(fā)環(huán)境和IDE環(huán)境,工程師可將Python工程文件等直接傳上去,在線寫代碼、調(diào)試、運行,立即找到所需的訓(xùn)練集群。推理完成后,還能實現(xiàn)算法調(diào)優(yōu),通過算力集群與模型不斷優(yōu)化代碼。
另外,青云還提供了在線訓(xùn)練平臺,將高性能計算、GPU卡等進行集成,在專屬環(huán)境上,青云提供一個GPU服務(wù)器在線申請構(gòu)建集群,所有的網(wǎng)絡(luò)和環(huán)境均可一鍵生成。同時青云會根據(jù)行業(yè)內(nèi)常用的模型和小工具進行集成。
容器推理平臺支持一鍵部署高性能Kubernetes集群,在推理過程中,如果發(fā)生一些性能上的擁堵,可以實現(xiàn)負載均衡、彈性伸縮。
青云還提供了模型倉庫,方便客戶可以通過模型市場立即部署自己的模型,調(diào)用自身的服務(wù)。同時,還能給予模型進行微調(diào),或在線通過云平臺的形式一鍵獲取。
總體而言,青云AI算力調(diào)度平臺實現(xiàn)了像如同管理本地資源般的方式,來管理AI基礎(chǔ)設(shè)施,提供多元算力調(diào)度與智能化的算力調(diào)度,保證算力快速落地。
開放生態(tài),讓客戶“善將將”
作為具備了“多多益善”才能的青云AI算力調(diào)度平臺來說,第二個問題是用戶是否有機會也能具備“善將將”的實力。實際上,對于未來AI時代而言,由于投資巨大,單一企業(yè)可能很難實現(xiàn)“大包大攬”,因為每個方面的成本都將比過去十年更高,僅以一個大模型為例,可能就需要花費大量人力、算力、金錢與時間成本,CPU、IDC建設(shè)等同理如此。據(jù)此,青云正在與不同領(lǐng)域的合作伙伴一起實現(xiàn)能力的整合。
“所以我們有一個大膽的設(shè)想,在AI領(lǐng)域一定會出現(xiàn)巨頭,但是我們覺得這個巨頭不應(yīng)該是一家獨立的公司,我覺得它應(yīng)該是一個小的生態(tài)。”林源隆重引出了定位為通過開放生態(tài)同盟方式一起運營的青云AI算力云服務(wù)。
這一設(shè)想主要基于三方面的考慮,首先是生態(tài)將能夠滿足客戶需要完整解決方案的需求,其次每位專業(yè)參與者間都有著彼此的需求,并彼此保持開發(fā),最終志同道合形成長期共贏的同盟。
從客戶需求上看,客戶需求的完整解決方案包括機房、算力、調(diào)度平臺、模型、模型驅(qū)動、Model Service,以及可以運行的應(yīng)用。其中從算力、模型、服務(wù)到應(yīng)用場景每一層都需要極強的專業(yè)性。
青云AI算力生態(tài)體系目前已經(jīng)圍繞AI 算力基礎(chǔ)設(shè)施的生態(tài)共享、AI 算力大模型的資源整合以及 AI 數(shù)據(jù)資源的生態(tài)整合實現(xiàn)了構(gòu)建,進而更好的幫助企業(yè)AI實現(xiàn)真正的業(yè)務(wù)價值。林源在媒體采訪過程將其分類為技術(shù)生態(tài)與商業(yè)生態(tài),其中技術(shù)生態(tài)包括GPU與模型生態(tài),商業(yè)生態(tài)則包括計算中心的投資建設(shè)、AI最終客戶等。
目前青云已經(jīng)實現(xiàn)了從適配、MaaS、共筑到最終落地的生態(tài)體系整合,涵蓋了從各大知名芯片廠商、模型開發(fā)商、云數(shù)據(jù)中心提供商等多層面的聯(lián)手。對于青云AI算力云的客戶而言,正如同是可以調(diào)動大量名將的AI開拓者,達到“善將將”的效果。
“每一個新時代到來的時候,大家都站在同一起跑線上,而新的時代可能需要一些新的合作模式與玩法。”林源表示AI時代的到來可能會讓格局發(fā)生新的變化。
“多多益善”之后的成功故事自不必表,如今AI正被視作是云服務(wù)之后的又一新機遇,“能做、做過,做成功了”的青云AI恰巧也已經(jīng)展現(xiàn)出了“多多益善”的自信,后續(xù)的精彩篇章正在開啟。