作者:Neo4j大中華區(qū)總經(jīng)理方俊強
呈指數(shù)級增長的大數(shù)據(jù)已然超過了傳統(tǒng)數(shù)據(jù)庫的管理范疇。信息不僅在數(shù)量上增加,而且也更加復(fù)雜。企業(yè)正在構(gòu)建與運營和客戶相關(guān)的龐大數(shù)據(jù)存儲庫,每個實體都有多個信息點和信息層。問題在于如何以有意義和及時的方式存儲、處理和分析數(shù)據(jù)。
許多企業(yè)正轉(zhuǎn)向圖數(shù)據(jù)科學(xué)存儲數(shù)據(jù)并產(chǎn)生洞察力。對圖數(shù)據(jù)科學(xué)的需求不斷增加,遍及各行各業(yè),包括金融服務(wù)、旅游、零售、公共部門和醫(yī)療保健等,希望解決其復(fù)雜的問題。
數(shù)據(jù)庫平臺 vs 圖數(shù)據(jù)科學(xué)平臺
如今,通過二維或電子表格顯示客戶數(shù)據(jù)庫是一種極其有限的方法。這種方法可以存儲和查詢數(shù)據(jù),但在數(shù)千行和單元格中,查詢模式并不是一個簡單或快速的過程。實現(xiàn)不同領(lǐng)域數(shù)據(jù)的關(guān)聯(lián)極其困難:例如,不僅要確定客戶是誰,還包括他們購買了什么、如何購買、在哪里購買以及為何購買。
Neo4j圖數(shù)據(jù)科學(xué)利用數(shù)十億甚至數(shù)萬億個數(shù)據(jù)點之間的關(guān)聯(lián)和關(guān)系,讓連接的數(shù)據(jù)“自己說話”,例如運行無監(jiān)督圖算法在噪聲中發(fā)現(xiàn)信號。通過客戶數(shù)據(jù)庫,可以顯示客戶在社區(qū)如何互動,對數(shù)據(jù)分類提供有用信息。
使用圖捆綁產(chǎn)品和服務(wù)可以實現(xiàn)數(shù)據(jù)價值最大化,建立每個產(chǎn)品和服務(wù)的統(tǒng)一數(shù)據(jù)庫及其規(guī)則和關(guān)系,以確保捆綁適當(dāng)?shù)姆⻊?wù)。擁有Neo4j圖數(shù)據(jù)庫使企業(yè)更容易管理其商業(yè)產(chǎn)品線層次結(jié)構(gòu)。
另一個實例是一家主流汽車制造商通過創(chuàng)建用于測試數(shù)據(jù)的知識圖譜可以縮短新車的上市時間。來自不同領(lǐng)域的工程師一直在以多種方式進行測試,并使用不同工具以各種格式存儲測試數(shù)據(jù)。這導(dǎo)致了數(shù)據(jù)的不一致和孤立,對其他團隊毫無用處。相反,Neo4j知識圖譜關(guān)聯(lián)了所有的產(chǎn)品驗證生命周期數(shù)據(jù),并允許在企業(yè)內(nèi)整合領(lǐng)域和功能,定義關(guān)鍵元數(shù)據(jù),例如測試類型、測量特征和測量條件。為測試、子測試和測量定義明確的語義,使工程師能夠跨域和平臺溝通。
預(yù)測而非應(yīng)對的方法
在競爭激烈的行業(yè)中,企業(yè)需要領(lǐng)先一步。 例如,金融機構(gòu)通常會在欺詐已經(jīng)發(fā)生時才來解決。借助Neo4j圖數(shù)據(jù)科學(xué),個人和實體之間的可疑關(guān)聯(lián)變得可見,可以更早地實施干預(yù)。知識圖譜可以識別鏈接個體的鏈條和環(huán),對與可疑實體有關(guān)聯(lián)的關(guān)系做質(zhì)量、數(shù)量和距離的評分。
當(dāng)識別出一個欺詐圈時,也可以使用相似度算法來識別數(shù)據(jù)中其他潛在欺詐圈。一旦確定了預(yù)測特定結(jié)果的模型,即可在未來生成更精準(zhǔn)的預(yù)測。
某財政部正使用Neo4j圖數(shù)據(jù)科學(xué)繪制約150,000個人、公司和文件,以及這些實體之間的約750,000個關(guān)系。如果檢測到可疑交易,則會分析圖中所有與案例相關(guān)的信息和文件。法律專家還可以發(fā)現(xiàn)僅在第二或第三層次上才明顯的關(guān)系,而不是只關(guān)注表層關(guān)系。
解鎖供應(yīng)鏈
過去幾年,供應(yīng)鏈面臨極大挑戰(zhàn)。上海和香港等許多港口都強烈感受到這一點,這些港口是全球主要的樞紐和貨物運輸中轉(zhuǎn)站。解鎖極其復(fù)雜的路線和參與者網(wǎng)絡(luò),嘗試重新安排每天穿越海洋的數(shù)萬艘集裝箱船只的路線是一項極具挑戰(zhàn)性的任務(wù)。
就本質(zhì)而言,供應(yīng)鏈管理是動態(tài)的,有許多變化的環(huán)節(jié),并且可能在任何給定點出現(xiàn)瓶頸。但傳統(tǒng)數(shù)據(jù)庫生成的數(shù)據(jù)量大、細(xì)節(jié)多,缺乏實時、準(zhǔn)確的信息處理能力。
相比較,Neo4j知識圖譜擅長繪制復(fù)雜、相互關(guān)聯(lián)的供應(yīng)鏈,即使應(yīng)對海量數(shù)據(jù)也能保持高性能。固有的以關(guān)系為中心的方法使他們能夠更好地管理、讀取數(shù)據(jù)并實現(xiàn)可視化。與傳統(tǒng) SQL 數(shù)據(jù)庫相比,Neo4j圖數(shù)據(jù)庫的查詢響應(yīng)速度通?100倍。
圖數(shù)據(jù)科學(xué)對中國企業(yè)而言擁有巨大的應(yīng)用潛力,中國占全球人口的1/5,不僅人口眾多,也是經(jīng)濟增長最快的地區(qū)之一。通過圖數(shù)據(jù)科學(xué)等技術(shù)充分利用大數(shù)據(jù)潛力的企業(yè)理當(dāng)成為其所在領(lǐng)域的領(lǐng)導(dǎo)者。