導(dǎo)讀:在數(shù)字化浪潮到來的今天,數(shù)據(jù)分析的重要性越來越高,圖作為一個(gè)高維的數(shù)據(jù)結(jié)構(gòu),可以為企業(yè)提供更加精準(zhǔn)高效的決策,賽道未來發(fā)展可期。
圖是事物及其關(guān)系的抽象表達(dá)。在以圖數(shù)據(jù)成為生產(chǎn)要素的數(shù)字經(jīng)濟(jì)時(shí)代,圖智能在工業(yè)、教育、醫(yī)療、金融等領(lǐng)域展現(xiàn)出了強(qiáng)大的成長潛力。
圖計(jì)算成為數(shù)據(jù)的底座。9月1日,在2022世界人工智能大會(huì)上,“新一代圖智能技術(shù)發(fā)展與實(shí)踐論壇”如期舉行,從產(chǎn)學(xué)研不同視角對圖技術(shù)進(jìn)行討論。
在論壇上,螞蟻集團(tuán)圖計(jì)算負(fù)責(zé)人陳文光宣布開源螞蟻集團(tuán)高性能圖數(shù)據(jù)庫TuGraph單機(jī)版,并成立圖計(jì)算開源技術(shù)委員會(huì),中國工程院院士鄭緯民、陳純分別擔(dān)任主席、副主席,5位業(yè)界知名專家擔(dān)任委員。隨著TuGraph的開源,圖數(shù)據(jù)領(lǐng)域?qū)⒂瓉硪豢钚阅茏吭健⒐δ茇S富、生態(tài)完備的開源產(chǎn)品。開發(fā)者可以聚焦應(yīng)用層,輕松打造屬于自己的圖數(shù)據(jù),從而提升行業(yè)整體技術(shù)應(yīng)用水位。
中國工程院院士、清華大學(xué)教授鄭緯民認(rèn)為,當(dāng)前圖數(shù)據(jù)庫正在成為發(fā)達(dá)國家科技企業(yè)競相布局的新興熱門領(lǐng)域。在圖數(shù)據(jù)庫時(shí)代,我們有機(jī)會(huì)與國外企業(yè)同期起步,現(xiàn)在布局正當(dāng)其時(shí)。
關(guān)系是最高價(jià)值特征
據(jù)了解,今年是世界人工智能大會(huì)舉辦的第五年,“科技風(fēng)向標(biāo)、產(chǎn)業(yè)加速器”是這場全球AI領(lǐng)域的行業(yè)盛會(huì)對參展技術(shù)與產(chǎn)品的期許。
圖計(jì)算里的圖(Graph)并非圖片,而是來源于圖論,是用于表達(dá)對象之間關(guān)聯(lián)關(guān)系的一種抽象數(shù)據(jù)結(jié)構(gòu),核心要素是點(diǎn)和邊,分別代表對象和對象之間的關(guān)系!皞鹘y(tǒng)的關(guān)系數(shù)據(jù)它其實(shí)是一個(gè)表的模型,不是一個(gè)很直接的方式,也非常不靈活!蔽浵伡夹g(shù)研究院院長、螞蟻集團(tuán)圖計(jì)算負(fù)責(zé)人陳文光表示,“圖數(shù)據(jù)沒有強(qiáng)行把一個(gè)原生的關(guān)系變成一個(gè)表,再用表來表示這個(gè)關(guān)系,而是直接把這個(gè)關(guān)系表達(dá)出來,所以它是一個(gè)最靈活的數(shù)據(jù)模型!
因此,圖計(jì)算在處理大規(guī)模復(fù)雜關(guān)聯(lián)關(guān)系時(shí)非常有效,它是對復(fù)雜關(guān)系的一種新的建模方式,為更深刻地理解這個(gè)世界提供了一種有效的工具。在實(shí)際運(yùn)用中,圖可以將各類數(shù)據(jù)聯(lián)系起來,將不同來源、不同類型的數(shù)據(jù)融合到一個(gè)圖里進(jìn)行分析,可以得到獨(dú)立分析難以發(fā)現(xiàn)的結(jié)果。
那么會(huì)有怎樣的增量信息被圖計(jì)算挖掘呢?
陳文光舉例稱,當(dāng)一個(gè)人的屬性你知道的非常少的時(shí)候,判斷他是好人還是壞人很有難度,但將“關(guān)系”考慮其中,結(jié)合“與他相關(guān)”的整體來看,一切則變得有跡可循,也就更容易做出判斷!霸趫D上有很多的方法,其實(shí)都幫我們給出一定的可解釋性!
以搜索引擎Google為例,如何判斷哪些網(wǎng)頁的重要程度高于其他網(wǎng)頁?Google做的就是網(wǎng)頁排序,兩位創(chuàng)始人提出了一個(gè)叫做PageRank的算法,這個(gè)算法的核心就是把互聯(lián)網(wǎng)上每一個(gè)網(wǎng)頁抽象成一個(gè)點(diǎn),網(wǎng)頁上的超鏈接又鏈接到其他的網(wǎng)頁,就構(gòu)成了這個(gè)點(diǎn)上的邊,由此將一個(gè)網(wǎng)頁與其他網(wǎng)頁相關(guān)聯(lián),通過網(wǎng)站外部鏈接的數(shù)量和質(zhì)量來判斷其重要性。
PageRank是圖計(jì)算中經(jīng)典的算法,也是Google瀏覽器脫穎而出的因素之一,“關(guān)系”的價(jià)值在這個(gè)實(shí)例中得到充分展現(xiàn)。
Gartner 在《2021 年十大數(shù)據(jù)和分析技術(shù)趨勢》報(bào)告中預(yù)測,到2025年,圖技術(shù)將應(yīng)用于80%的數(shù)據(jù)和分析創(chuàng)新。目前,在金融、互聯(lián)網(wǎng)、工業(yè)、醫(yī)藥、公共衛(wèi)生、公共安全等領(lǐng)域都有很多的應(yīng)用。
未來應(yīng)用可能性
去年4月12日,人民日報(bào)刊發(fā)的文章《高性能圖計(jì)算:尖端科技下一個(gè)前沿》稱:在我國發(fā)展高性能圖計(jì)算,具備良好的技術(shù)基礎(chǔ)和現(xiàn)實(shí)條件。一方面,人們?nèi)缃竦娜粘I铍x不開高性能計(jì)算。天氣預(yù)報(bào)、新藥研發(fā)、新型材料、安全系數(shù)更高的汽車、高鐵和飛機(jī)等都需要高性能計(jì)算作支撐。另一方面,由于圖的優(yōu)秀表達(dá)能力、可視化效果和堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),圖計(jì)算也已在國家安全、金融安全等方面有很高的價(jià)值。
螞蟻集團(tuán)圖數(shù)據(jù)庫負(fù)責(zé)人洪春濤表示,圖技術(shù)是未來大數(shù)據(jù)、人工智能和高性能計(jì)算產(chǎn)業(yè)發(fā)展的關(guān)鍵所在,它很有可能會(huì)成為下一代的數(shù)據(jù)底座。
以螞蟻集團(tuán)為例,圖智能已經(jīng)成為螞蟻科技底座之一,被成熟應(yīng)用于螞蟻集團(tuán)的支付和數(shù)字金融場景,包括全圖風(fēng)控、反洗錢、反欺詐、保險(xiǎn)知識(shí)圖譜、花唄圖譜等。據(jù)了解,至今TuGraph已應(yīng)用于螞蟻內(nèi)部150多個(gè)場景,包括在線支付的實(shí)時(shí)鏈路,以支付寶風(fēng)險(xiǎn)識(shí)別能力提升近10倍、風(fēng)險(xiǎn)審理分析效率提升90%的成績,驗(yàn)證了其高可靠性。
上月,LDBC(關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì))發(fā)布最新圖數(shù)據(jù)庫SNB測試結(jié)果,TuGraph在功能完整性、吞吐率、響應(yīng)速度等層面全球領(lǐng)先。
華中科技大學(xué)教授金海認(rèn)為,圖是未來人工智能大數(shù)據(jù)分析的核心,而目前來看,這個(gè)方向的應(yīng)用還比較有限。
杭州悅數(shù)科技首席執(zhí)行官葉小萌在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,圖計(jì)算在學(xué)界發(fā)展多年,但業(yè)界是在近兩三年才逐步發(fā)展起來的,還處于初期,目前仍面臨如何尋找用戶痛點(diǎn)的問題,“怎樣用圖的技術(shù)去解決用戶的問題是商業(yè)上的挑戰(zhàn)!
而用戶方面,對于圖技術(shù)能帶來什么價(jià)值,大多數(shù)用戶也并不足夠了解!皬奈覀兊慕嵌葋碚f,我們要去理解用戶的場景,幫用戶找到圖技術(shù)的應(yīng)用!比~小萌表示。
此次開源也意味著,螞蟻集團(tuán)愿意通過開源持續(xù)輸出核心技術(shù)優(yōu)勢,推動(dòng)圖數(shù)據(jù)庫更廣泛的應(yīng)用生態(tài)。
陳文光認(rèn)為,開源可以幫助企業(yè)得到更多的外界輸入,看到業(yè)界更多的需求的時(shí)候可以避免走彎路。亞馬遜上海人工智能研究院資深應(yīng)用科學(xué)家王敏捷有類似的感受,他認(rèn)為開源有助于快速的反饋迭代,但在面臨多樣客戶時(shí),對團(tuán)隊(duì)的管理也有很大挑戰(zhàn)。
在數(shù)字化浪潮到來的今天,數(shù)據(jù)分析的重要性越來越高,圖作為一個(gè)高維的數(shù)據(jù)結(jié)構(gòu),可以為企業(yè)提供更加精準(zhǔn)高效的決策,賽道未來發(fā)展可期。
(作者:董靜怡 編輯:張偉賢)