伴隨AI走向應(yīng)用深水區(qū),公開數(shù)據(jù)資源日益枯竭,“數(shù)據(jù)煙囪”的客觀存在,進(jìn)一步阻礙高質(zhì)量數(shù)據(jù)穿透管控層、資源交互層向場景釋放價值。
9月以來,國家數(shù)據(jù)局密集發(fā)布系列政策,提出公共數(shù)據(jù)資源開發(fā)利用成為產(chǎn)業(yè)發(fā)展重要趨勢,并明確出臺“可信數(shù)據(jù)空間”建設(shè)行動計劃,確立了2028年前建成100個可信數(shù)據(jù)空間,培育推廣五大類空間,形成九大關(guān)鍵技術(shù)突破等目標(biāo)。
為支撐人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展,基于對數(shù)據(jù)要素核心價值的深入洞察與領(lǐng)先的全棧AI能力,北京電子數(shù)智科技有限責(zé)任公司(以下簡稱 “北電數(shù)智”)以前瞻性的戰(zhàn)略布局投身可信數(shù)據(jù)空間的探索與實(shí)踐,快速實(shí)現(xiàn)產(chǎn)品方案轉(zhuǎn)化,加速可信數(shù)據(jù)空間全面落地。
在12月19日舉辦的2024數(shù)據(jù)資產(chǎn)管理大會上,由北電數(shù)智、北京大學(xué)信息管理系、中日友好醫(yī)院共同編寫的《智能計算驅(qū)動的AI可信數(shù)據(jù)空間方案研究》(以下簡稱“《研究報告》”)正式發(fā)布,成為可信數(shù)據(jù)空間領(lǐng)域的首份研究報告。
聚焦AI可信數(shù)據(jù)空間的關(guān)鍵作用,《研究報告》前瞻性提出“以數(shù)據(jù)可信定義AI終局”的發(fā)展愿景,對行業(yè)趨勢、現(xiàn)狀和痛點(diǎn)進(jìn)行了深入剖析,并給出建設(shè)性解決方案和研究依據(jù),為AI可信數(shù)據(jù)空間從理論研究邁向落地提供客觀、詳實(shí)的論證和推演。
AI可信數(shù)據(jù)空間:實(shí)現(xiàn)數(shù)據(jù)資源共享、數(shù)據(jù)要素流通、數(shù)據(jù)價值共創(chuàng)、構(gòu)建數(shù)據(jù)市場的重要基建
數(shù)據(jù)是AI發(fā)展的關(guān)鍵驅(qū)動力!堆芯繄蟾妗分赋,數(shù)據(jù)的價值在于動態(tài)流通,具有易于復(fù)制、非排他性等特征,數(shù)據(jù)流通存在安全風(fēng)險高、成本大等挑戰(zhàn),數(shù)據(jù)擁有方共享意愿低,阻礙了數(shù)據(jù)要素價值的釋放,由此導(dǎo)致高質(zhì)量數(shù)據(jù)短缺,成為國內(nèi)AI發(fā)展掣肘之一。
北電數(shù)智基于在可信數(shù)據(jù)空間領(lǐng)域的深入實(shí)踐,在《研究報告》中圍繞定義、案例,以及我國發(fā)展現(xiàn)狀等維度,對智能計算驅(qū)動的AI可信數(shù)據(jù)空間的建設(shè)給出三層次建議:
首先,“明確價值定義”。可信數(shù)據(jù)空間是數(shù)據(jù)要素流通的重要基建,是國家中長期數(shù)據(jù)要素基礎(chǔ)設(shè)施,也是實(shí)現(xiàn)全行業(yè)數(shù)據(jù)流通的前提和關(guān)鍵保障。通過隱私計算、虛擬沙箱等技術(shù)手段,可信數(shù)據(jù)空間可保障數(shù)據(jù)“可用不可見、可用不可存、可控可計量”,為數(shù)據(jù)要素的安全、高效流通提供關(guān)鍵支撐。具體而言,可信數(shù)據(jù)空間通過采用“數(shù)字合約”規(guī)范了數(shù)據(jù)的流通規(guī)則,可提升數(shù)據(jù)的流通效率;同時,通過可控、可追溯的鏈路設(shè)計,確保數(shù)據(jù)僅在合約范圍內(nèi)流轉(zhuǎn),保障數(shù)據(jù)安全;此外,還可通過分布式架構(gòu)讓數(shù)據(jù)由持有方保管,確保數(shù)據(jù)在流通過程中產(chǎn)權(quán)不發(fā)生轉(zhuǎn)移,實(shí)現(xiàn)數(shù)據(jù)產(chǎn)權(quán)保護(hù)。
第二,“善借他山之石”。目前,北電數(shù)智認(rèn)為可信數(shù)據(jù)空間在國內(nèi)外已有諸多相關(guān)案例可供參考借鑒。歐盟通過構(gòu)建多層次的可信數(shù)據(jù)空間體系,為數(shù)據(jù)流通和數(shù)字化轉(zhuǎn)型提供基礎(chǔ),并在科研、健康等領(lǐng)域取得顯著成效。例如,歐洲開放科學(xué)云(EOSC)匯聚了豐富的科研數(shù)據(jù)資源,為科研人員提供了高效的合作平臺,加速了企業(yè)創(chuàng)新孵化。國內(nèi)也在政務(wù)、跨境、工業(yè)等領(lǐng)域有了諸多實(shí)踐。例如,政務(wù)數(shù)據(jù)空間領(lǐng)域的“區(qū)塊鏈+審判”應(yīng)用,可以提高審判執(zhí)行效率;科研領(lǐng)域的跨境數(shù)據(jù)空間,可以促進(jìn)科研科創(chuàng)數(shù)據(jù)的跨境共享;工業(yè)數(shù)據(jù)空間則能在工業(yè)領(lǐng)域助力企業(yè)解決數(shù)據(jù)流通難題,助力制造升級、實(shí)現(xiàn)提質(zhì)增效。
第三,“因地制宜因情施策”。盡管我國在可信數(shù)據(jù)空間領(lǐng)域已有積極的探索和實(shí)踐,但整體發(fā)展尚處于起步階段,特別是“大模型+數(shù)據(jù)空間”的結(jié)合,因技術(shù)復(fù)雜度高和成本約束,相關(guān)應(yīng)用案例較為稀缺。要真正推動可信數(shù)據(jù)空間的健康發(fā)展,還需要形成統(tǒng)一技術(shù)路線和標(biāo)準(zhǔn)體系,并解決大模型與數(shù)據(jù)空間技術(shù)結(jié)合的問題!堆芯繄蟾妗方ㄗh,國資背景企業(yè)可作為“領(lǐng)頭雁”和“組局者”先行先試,推動安全、高效、公平的數(shù)據(jù)流通環(huán)境建設(shè)。
AI可信數(shù)據(jù)空間:數(shù)據(jù)要素X人工智能價值的最大化釋放路徑
可信數(shù)據(jù)空間是數(shù)據(jù)要素和人工智能價值的最大化釋放路徑。通過構(gòu)建一個安全、可信的數(shù)據(jù)環(huán)境,讓數(shù)據(jù)能自由匯聚、共享和流動,從而釋放數(shù)據(jù)要素價值,為人工智能發(fā)展提供數(shù)據(jù)燃料。
作為AI原生國企,北電數(shù)智秉承在數(shù)據(jù)要素領(lǐng)域先進(jìn)理念,致力于打造安全、可靠的數(shù)據(jù)交換和共享環(huán)境,構(gòu)建了“紅湖·可信數(shù)據(jù)空間”,通過可信數(shù)據(jù)流通為大模型開發(fā)提供優(yōu)質(zhì)數(shù)據(jù),并通過大模型產(chǎn)業(yè)的發(fā)展帶動數(shù)據(jù)要素價值的釋放。
紅湖·可信數(shù)據(jù)空間的整體架構(gòu)是面向大模型開發(fā)設(shè)計的。面向數(shù)據(jù)提供方,紅湖·可信數(shù)據(jù)空間有著使用策略協(xié)商、數(shù)據(jù)合約授權(quán)、數(shù)據(jù)安全接入、存證等產(chǎn)品功能,最大范圍保障其權(quán)益,讓數(shù)據(jù)“可用不可見、可用不可存、可控可計量”;面對數(shù)據(jù)開發(fā)者,紅湖·可信數(shù)據(jù)空間還提供了大模型嵌入與開發(fā)、數(shù)據(jù)安全計算、流程管控、底層算力調(diào)度等功能,讓可信空間中的數(shù)據(jù)有效支持模型訓(xùn)練及人工智能發(fā)展。
如何在大模型訓(xùn)練和推理過程中保障數(shù)據(jù)安全及開發(fā)安全,是可信數(shù)據(jù)空間需考慮的重要問題。 紅湖·可信數(shù)據(jù)空間的產(chǎn)品設(shè)計對大模型開發(fā)算法安全進(jìn)行了保障,它能依托混元算力構(gòu)建,通過嵌入機(jī)密計算能力、隱私計算軟硬一體設(shè)計等技術(shù),能結(jié)合已有算力基礎(chǔ)設(shè)施建設(shè)可信數(shù)據(jù)空間,如將平臺能力建立在國產(chǎn)硬件上;而在算法開發(fā)環(huán)節(jié),紅湖·可信數(shù)據(jù)空間提供了大模型開發(fā)算法融入數(shù)據(jù)空間的標(biāo)準(zhǔn)化方法,將算法與有效的技術(shù)手段結(jié)合來保護(hù)數(shù)據(jù)隱私安全。
而對于數(shù)據(jù)流通的安全性,紅湖·可信數(shù)據(jù)空間會根據(jù)應(yīng)用場景需求對數(shù)據(jù)選取不同的安全技術(shù)配置,如對于大數(shù)量、超大模型、低敏感的數(shù)據(jù),可以基于策略控制與軟件隔離對大模型進(jìn)行訓(xùn)練;但對于多方小數(shù)據(jù)量但高敏感的數(shù)據(jù),就需要基于密碼學(xué)密文計算的樣本對齊、模型推理等。
以“紅湖·可信數(shù)據(jù)空間”為代表的可信數(shù)據(jù)產(chǎn)品,充分考慮了人工智能開發(fā)過程中的風(fēng)險因素,可充分發(fā)揮AI三大要素的核心作用,是數(shù)據(jù)要素與人工智能價值的最大化釋放路徑。
面向不同行業(yè)需求,北電數(shù)智紅湖·可信數(shù)據(jù)空間已形成多種解決方案。如在醫(yī)療領(lǐng)域,通過整合多源異構(gòu)數(shù)據(jù),并結(jié)合AI數(shù)據(jù)挖掘,提升了醫(yī)療服務(wù)的智能化水平;在科研領(lǐng)域,提出了“1+1+N”科研數(shù)據(jù)服務(wù)解決方案,構(gòu)建全面的科研與產(chǎn)品服務(wù)生態(tài)網(wǎng)絡(luò);在公共數(shù)據(jù)運(yùn)營領(lǐng)域,構(gòu)建從數(shù)據(jù)匯聚、治理、授權(quán)管理到開發(fā)利用的全鏈條授權(quán)開發(fā)與流通應(yīng)用體系,釋放公共數(shù)據(jù)價值。
最后,《研究報告》認(rèn)為,通過為數(shù)據(jù)流轉(zhuǎn)應(yīng)用創(chuàng)造互信共享環(huán)境,可信數(shù)據(jù)空間已成為當(dāng)前促進(jìn)大模型落地和AI產(chǎn)業(yè)發(fā)展的關(guān)鍵,能夠有效保障數(shù)據(jù)在安全可信環(huán)境中匯聚、共享、開放和應(yīng)用,是解決數(shù)據(jù)跨域流通的最優(yōu)解。
展望未來,建設(shè)面向AI可信的數(shù)據(jù)空間生態(tài),已成為重要的行業(yè)趨勢。《研究報告》預(yù)計,隨著相關(guān)政策與法律法規(guī)的不斷優(yōu)化完善、大模型與數(shù)據(jù)要素融合趨勢加快、數(shù)據(jù)流通基礎(chǔ)設(shè)施朝向互聯(lián)互通邁進(jìn),可信數(shù)據(jù)空間將成為實(shí)現(xiàn)數(shù)據(jù)資源共享共用的數(shù)據(jù)流通利用基礎(chǔ)設(shè)施、數(shù)據(jù)要素價值共創(chuàng)的應(yīng)用生態(tài)和支撐構(gòu)建全國一體化數(shù)據(jù)市場的重要載體。北電數(shù)智也將持續(xù)鍛造“紅湖·可信數(shù)據(jù)空間”產(chǎn)品服務(wù)能力,全力促進(jìn)數(shù)據(jù)要素價值釋放,促進(jìn)人工智能產(chǎn)業(yè)發(fā)展。