以下是Esri中國(guó)信息技術(shù)有限公司行業(yè)首席咨詢顧問(wèn)/技術(shù)總監(jiān)、中國(guó)地理信息產(chǎn)業(yè)協(xié)會(huì)大數(shù)據(jù)工委會(huì)委員康來(lái)成在“自然資源主題論壇”以“分布式多維異構(gòu)時(shí)空自然資源大數(shù)據(jù)的分析與處理”為主題的演講報(bào)告,內(nèi)容如下(未經(jīng)本人審核)。
Esri中國(guó)信息技術(shù)有限公司行業(yè)首席咨詢顧問(wèn)、技術(shù)總監(jiān)康來(lái)成
康來(lái)成:大家好!
按會(huì)議日程,這個(gè)環(huán)節(jié)應(yīng)該是“分布式多維異構(gòu)時(shí)空自然資源大數(shù)據(jù)的分析與處理”。
剛才,非常欣喜地看到有很多落地的自然資源確權(quán)登記的案例。我做這個(gè)報(bào)告稍微帶有一點(diǎn)前瞻性。就象你們現(xiàn)在看到的,我的報(bào)告的大標(biāo)題:自然資源大數(shù)據(jù)在路上。副標(biāo)題:分布式多維異構(gòu)時(shí)空自然資源大數(shù)據(jù)的分析與處理。 我們正在開(kāi)始獲取這些海量的確權(quán)數(shù)據(jù),但是拿到之后怎么用?我們要開(kāi)始思考了。
我們還有更多的與自然資源相關(guān)的數(shù)據(jù),比如地下水、河流、氣象、空氣污染指數(shù)等等。自然資源涉及到農(nóng)業(yè)、林業(yè)、水利、地質(zhì)、環(huán)境等等很多部門,很多數(shù)據(jù),這些有的是圖形,有的是數(shù)字,有的是報(bào)表,很多形態(tài)。這些多源的自然資源信息怎么樣利用?如何在大數(shù)據(jù)的環(huán)境下立體化多維的展示他們的價(jià)值?如何給我們的生活帶來(lái)更多的有益的決策。大家也一定在思考并償試找到答案,這也是我想與大家分享的。
提到大數(shù)據(jù),首先有幾個(gè)概念要澄清一下。到底是大數(shù)據(jù)還是數(shù)據(jù)大?大數(shù)據(jù)的計(jì)算目標(biāo)是不是就是看以前快多少倍?大數(shù)據(jù)計(jì)算能力就是比誰(shuí)有多少個(gè)大數(shù)據(jù)工具數(shù)量?等等。
這些都是關(guān)于大數(shù)據(jù)討論的一些焦點(diǎn),觀點(diǎn)是沒(méi)有對(duì)錯(cuò)的,如果從GIS的角度或者是從自然資源大數(shù)據(jù)應(yīng)用的角度來(lái)看,我的觀點(diǎn):
第一,我們是在用大數(shù)據(jù)的思想、方法、工具增強(qiáng)傳統(tǒng)空間分析統(tǒng)計(jì)的能力。GIS的大數(shù)據(jù)跟騰訊、阿里巴巴和京東等IT公司所談的大數(shù)據(jù)不是一個(gè)概念。他們談的大數(shù)據(jù)是附合4V特征的,從上千個(gè)維度來(lái)刻畫(huà)用戶的消費(fèi)習(xí)慣,推斷潛在客戶性別,消費(fèi)特征,從而精準(zhǔn)推送相關(guān)產(chǎn)品。實(shí)際上 GIS數(shù)據(jù)并不符合大數(shù)據(jù)的4V特征,所以:
第二,GIS的數(shù)據(jù)本質(zhì)上是數(shù)據(jù)大,而不是大數(shù)據(jù),空間大數(shù)據(jù)的計(jì)算無(wú)法與獲取處理分享等環(huán)節(jié)相割裂。
因此我也非常贊同剛才浙江大學(xué)GIS重點(diǎn)實(shí)驗(yàn)室杜教授的觀點(diǎn)。我們想讓空間信息的處理快點(diǎn)再快點(diǎn),但我們只強(qiáng)調(diào)大數(shù)據(jù)的計(jì)算效率,而將計(jì)算跟數(shù)據(jù)的獲取處理割裂開(kāi)來(lái),這是不對(duì)的。只參考計(jì)算這一個(gè)環(huán)節(jié)的性能指標(biāo)就如同只關(guān)注蘋果手機(jī)的待機(jī)時(shí)間:使用手冊(cè)上所標(biāo)稱的大概有200個(gè)小時(shí)左右,約8天,實(shí)際上玩不到2天就沒(méi)電了,因?yàn)槟?00多個(gè)小時(shí)的待機(jī)時(shí)間是有很多限定條件的。很多廠商動(dòng)輒號(hào)稱自已有2分鐘處理千萬(wàn)級(jí)不規(guī)則面狀圖斑的計(jì)算能力也是一樣,也許只是個(gè)噱頭。
時(shí)間關(guān)系,這里我只能跟大家簡(jiǎn)單談四個(gè)技術(shù)點(diǎn)。這是分布式自然資源大數(shù)據(jù)分析處理的關(guān)鍵,即:如何打造完整的自然資源大數(shù)據(jù)生態(tài)鏈。
1:分布式多源多維時(shí)空間信息資源的一體化管理
2:多元空間信息資源建模與協(xié)同分享
3:分布式空間大數(shù)據(jù)的更新于運(yùn)維
4:大數(shù)據(jù)軟件資源與硬件資源協(xié)同調(diào)度。
為了驗(yàn)證這些關(guān)鍵技術(shù),我們做了一個(gè)叫:自然資源大數(shù)據(jù)分析預(yù)處理的關(guān)鍵技術(shù)“概念驗(yàn)證模型”。基于這個(gè)環(huán)境,我們要打通了兩座數(shù)據(jù)橋,打造兩個(gè)數(shù)據(jù)鏈。要打通的兩座數(shù)據(jù)橋:一是基外網(wǎng),打通各個(gè)部門之間的門戶。二是基于內(nèi)網(wǎng),打通各個(gè)部門之間數(shù)據(jù)庫(kù)。要打造的兩個(gè)數(shù)據(jù)鏈:一是在傳統(tǒng)的計(jì)算資源與大數(shù)據(jù)計(jì)算資源之間,打造一個(gè)虛擬大數(shù)據(jù)計(jì)算資源池。二是基于云環(huán)境,打造一個(gè)自服務(wù)彈性的云環(huán)境。
我這里有一個(gè)視頻,先播給大家看。這里我想向大家展示分布式自然資源大數(shù)據(jù)一體化協(xié)同管理的三種模式:1.基于統(tǒng)一資源目錄的分布式信息資源管理;2. 基于數(shù)據(jù)的“分布式集中”數(shù)據(jù)管理運(yùn)維;3.混合模式。
基于Portal產(chǎn)品,我們可以在不同的部門里可以檢索到各種信息資源,并分析處理出各種結(jié)果,這些結(jié)果還可以跟其它信息疊加,形成新的成果,以服務(wù)的方式再次分享出來(lái),讓更多人去使用。基于這樣的能力我們提供了5種形式的協(xié)同能力。第一個(gè)是同一單位內(nèi)部的不同部門之間做到數(shù)據(jù)、地圖、服務(wù)、應(yīng)用等的互聯(lián)互通。第二個(gè)能力可以在部門與部門之間實(shí)現(xiàn)信息互通。第三個(gè)能力是可以跟本地的數(shù)據(jù)與互聯(lián)網(wǎng)的上的數(shù)據(jù)進(jìn)行互動(dòng)。第四個(gè)能力是在分享這些服務(wù)、應(yīng)用的同時(shí),將數(shù)據(jù)也一并分享。第五個(gè)能力,基于Portal的統(tǒng)一權(quán)限與安全認(rèn)證框架可以做到數(shù)據(jù)庫(kù)間的實(shí)時(shí)更新。
我們?cè)趤?lái)簡(jiǎn)單分享一下,空間數(shù)據(jù)的同步與復(fù)制技術(shù)。這項(xiàng)技術(shù)最早出現(xiàn)在ArcGIS9.2版本,那個(gè)年代大家都在做CS版本的應(yīng)用,基于網(wǎng)絡(luò)的數(shù)據(jù)的同步和更新尚末沒(méi)有引起大家的關(guān)注。隨著現(xiàn)在越來(lái)越多的大數(shù)據(jù)的應(yīng)用推廣起來(lái)之后,數(shù)據(jù)本身開(kāi)始引起大家的關(guān)注。Esri提供的ArcGIS10.5.1數(shù)據(jù)同步復(fù)制工具,給我們帶來(lái)了非常實(shí)用的解決這一難題的辦法。正如視頻中所看到的,他帶來(lái)了3種能力。一是單向復(fù)制,可以非常方便的在多個(gè)部門之間單向的分發(fā)或匯交數(shù)據(jù)成果。二是提供雙向的,支持多并發(fā)的數(shù)據(jù)相互更新能力,支持多個(gè)版本之間,同時(shí)修改、編輯,在提交成果時(shí),如果發(fā)生了沖突,會(huì)有一套完整的仲裁機(jī)制。三是支持實(shí)時(shí)在線、離線、壓縮、加密甚至二次開(kāi)發(fā)等等一套完整的工程化保障機(jī)制、方法。
這套技術(shù)已有很多案例了,最有代表性的一個(gè)是云南時(shí)空信息云平臺(tái),地質(zhì)中心、測(cè)繪中心、地環(huán)中心3個(gè)中心之間通過(guò)這套同步復(fù)制技術(shù)實(shí)現(xiàn)互為備份,實(shí)時(shí)同步。另一個(gè)案例比較老了,是神華集團(tuán)的案例,已以跑了五年多了,神華集團(tuán)下面有130多個(gè)煤礦,每一個(gè)煤礦節(jié)點(diǎn),都沒(méi)有專門的空間數(shù)據(jù)庫(kù),每個(gè)月報(bào)數(shù)據(jù)的時(shí)候,直接從主中心下載一個(gè)本區(qū)域(礦)的數(shù)據(jù)版本,在上面更新,然后回傳給主中心,自動(dòng)更新主中心數(shù)據(jù)庫(kù)。這套方案現(xiàn)到在還在運(yùn)行著。這項(xiàng)技術(shù)現(xiàn)在很成熟。這張表是在我們實(shí)驗(yàn)里,實(shí)測(cè)的同步復(fù)制效率,可以看到,在A節(jié)點(diǎn),約1千萬(wàn)的數(shù)據(jù)底圖中,發(fā)現(xiàn)1百萬(wàn)的變化的數(shù)據(jù),并把他們提取出來(lái),傳送到另一節(jié)點(diǎn)B,并更新B節(jié)點(diǎn)的數(shù)據(jù)庫(kù)。整合過(guò)種,大概只有17分鐘左右。這是完全可以支撐實(shí)際的工程化生產(chǎn)作業(yè)的。
我們?cè)賮?lái)看一下空間數(shù)據(jù)的挖掘,大家都知道,ArcGIS原生有一千多個(gè)空間分析統(tǒng)計(jì)的功能。這里給大家分享一個(gè)全新的工具。通過(guò)這張圖大家可以看到,我們的業(yè)務(wù)人員,可以直接對(duì)空間數(shù)據(jù),做各種比對(duì)和碰撞,這些業(yè)務(wù)人員不需要編寫代碼,直接像拼圖一像的,在打開(kāi)的多個(gè)窗口里,把這些個(gè)圖層相互丟來(lái)丟去,就可以直接得到結(jié)果。這些比對(duì)和碰撞的過(guò)程,還可以固化封裝成一個(gè)模型,在分享給更多的人使用。
時(shí)間關(guān)系,我們最后在來(lái)談一下關(guān)于大數(shù)據(jù)的挖掘。Esri研發(fā)了一套全新的基于Spark框架的大數(shù)據(jù)處理引擎。支持矢量數(shù)據(jù)計(jì)算、柵格數(shù)據(jù)計(jì)算、流數(shù)據(jù)計(jì)算多種能力。這些工具可能在數(shù)量上并不是最多的,但幾乎囊括了所有常用的空間分析、空間統(tǒng)計(jì)功能。我的報(bào)告只有15分鐘,這里只能給大家看一些成果案例,無(wú)法展開(kāi)更多信息了。
最后我們小結(jié)一下,關(guān)于分布式多維異構(gòu)多時(shí)態(tài)的自然資源時(shí)空大數(shù)據(jù),分析處理增值應(yīng)用的關(guān)鍵是打造一個(gè)完整的大數(shù)據(jù)生態(tài)鏈,通過(guò)技術(shù)的手段,做到自然資源時(shí)空大數(shù)據(jù)的能整合、能利用、能更新、能分享。
已經(jīng)略微超時(shí)了,我的報(bào)告就分享到這里。
謝謝大家!
{{item.content}}