中國測繪地理信息學會2017年學術年會暨第十二次全國會員代表大會今日在南京舉辦。本次大會以“創(chuàng)新驅動,跨越發(fā)展”為主題,邀請測繪地理信息科技界專家、院士、學者齊聚一堂,呈現(xiàn)精彩特邀報告,并舉辦多個垂直領域分論壇。
會上,北京超圖軟件股份有限公司總裁宋關福先生作了題為《全面擁抱大數(shù)據(jù)的GIS基礎軟件技術》的報告。
以下為演講內容(內容未經(jīng)本人核實):
宋關福:謝謝主持人,各位同志,大家下午好!今天大會的航班已經(jīng)延誤了十幾分鐘了,剛才在陳總的努力下追回來一點。我剛才把電腦打開刪了一些頁面,希望能夠稍微早一點結束。
今天我們有很多的院士專家進行了很精彩的報告,其中有不少的報告已經(jīng)開始在講人工智能,講深度學習了。接下來我今天的報告是跟大家講一個稍微有點過時的技術——大數(shù)據(jù)。為什么這么說呢?這個數(shù)據(jù),我們這些技術的發(fā)展,我們看一個工具,經(jīng)常會用這個光環(huán)曲線來看它的發(fā)展所處在的階段,我們看到三維GIS已經(jīng)在復蘇期了,而云GIS也已經(jīng)在復蘇期,我們今天講的大數(shù)據(jù)GIS正在進入低谷期,所以我說它有點過時,就是說它已經(jīng)過了最熱的時候。
今天我們聽到很多關于人工智能的故事,人工智能,在IT領域的人工智能已經(jīng)過了頂峰,但是GIS的人工智能剛剛進入一個萌芽,可能在未來一到兩年會進入一個探索的熱潮。
我們在座的各位都已經(jīng)知道海量的空間數(shù)據(jù)并不等于大數(shù)據(jù),大數(shù)據(jù)不是因為它僅僅是大才是叫大數(shù)據(jù)。我們產(chǎn)生一個新的問題,我們已有的海量的經(jīng)典的空間數(shù)據(jù),如果說我把它用我們大數(shù)據(jù)相關的一些技術,比如說分布式存儲、分布式計算框架來管理、處理和分析,這些數(shù)據(jù)是不是就變成大數(shù)據(jù)了呢?我覺得也不是。你可以用大數(shù)據(jù)的技術去管理它們,但是這些數(shù)據(jù)的本身性質還沒有改變,它還是我們經(jīng)典的空間數(shù)據(jù)。為什么呢?因為我們要大數(shù)據(jù)的幾個特征來看,這個是來自IBM的一個說法,有五個V,我這里引用四個V,第一個是體量大、第二個是種類多,第三個是變化快,第四個是價值密度低。體量大、變化快意味著我們需要更快的軟件處理性能;種類多意味著我們的分析模型可能不夠,我們不光是廠商提供的模型,我們還要自己去定義更多的模型;而價值密度低意味著大數(shù)據(jù)是貧礦,就意味著冶煉的難度大,計算量大。
人家都講大數(shù)據(jù)有價值,你這里說它是貧礦,貧礦有挖掘價值嗎?我覺得數(shù)據(jù)的價值可以有這樣的一個公式來計算,等于體量×價值密度-挖掘分析的成本,如果說我們的體量夠大,價值密度就大,也能夠挖掘分析的成本,所以這樣大數(shù)據(jù)才有價值,所以大數(shù)據(jù)核心的價值在于計算,在于分析方法。當方法提升了之后,大數(shù)據(jù)才有價值。
我們從IT的另外一個工具來看空間大數(shù)據(jù),DIKW金字塔,這個模型里面數(shù)據(jù)Data是最底層的,是記錄原始的素材。第二個是信息,將加工處理后得到的邏輯的數(shù)據(jù),第三個是數(shù)據(jù),原始素材進行處理之后得到的一個記錄,就得到一個智慧,這個就是IDKW金字塔。我們空間大數(shù)據(jù)就是基本的原始素材,而我們管理好的測繪4D產(chǎn)品是信息了,是從原始數(shù)據(jù)當中提煉出來的有組織的有邏輯的數(shù)據(jù)。所以說我們大數(shù)據(jù)挖掘的意義就在于把它從DIKW金字塔底層往上移的過程,也就是從數(shù)據(jù)里面提煉知識的過程,這就是大數(shù)據(jù)挖掘的意義。所以我們千萬不要把在家里服務器上存的數(shù)據(jù)庫貼上大數(shù)據(jù)的標簽,因為它一點不增值,反而低估了你的價值。
空間大數(shù)據(jù)的內涵,我們參考一下對大數(shù)據(jù)的定義,我們也可以定義一下,它就是帶有或者隱含有空間位置的,具有這四個價值特點的常規(guī)的軟件工具無法處理的,需要更先進的技術才能夠讓它具有更強的決策力、洞察力、流程優(yōu)化能力的數(shù)字資產(chǎn),這就是空間大數(shù)據(jù)的內涵和定義。
外延是什么呢?就包括我們看到的所謂擁有最多的手機信令的數(shù)據(jù),導航的軌跡、社交媒體,你發(fā)微博發(fā)微信后臺服務器也知道你大致的位置。我們在百度搜索里面去搜索關鍵詞,比如說“感冒藥”什么東西,后臺也知道你這個對應的位置在什么位置發(fā)生的,等等等等。包括水電表數(shù)據(jù),這些都是我們的大數(shù)據(jù),而不是躺在家里面的測繪產(chǎn)品。
如何實現(xiàn)空間大數(shù)據(jù)的價值呢?我們有大數(shù)據(jù)還不夠,我們還需要有工具,有軟件。今天下午古德查德(Goodchild)教授也提到了GIS是工具,沒有這個工具這個數(shù)據(jù)也不能產(chǎn)生價值。同時我們還需要一些分析模型,只有這三個結合起來,才能夠讓大數(shù)據(jù)去產(chǎn)生價值。
大數(shù)據(jù)GIS軟件,剛才提到了它的意義何在呢?我們研發(fā)一個這樣的軟件目的在于可以去降低大家挖掘大數(shù)據(jù)的技術門檻。在此之前能夠挖掘大數(shù)據(jù)的單位都是什么?百度、高德、騰訊,包括一些很有實力的單位或者一些比較有實力的大學研究機構。我們很多單位有數(shù)據(jù)可能沒法讓它發(fā)揮價值,所以我們就需要研究這樣的一些工具軟件,把空間大數(shù)據(jù)的一些基本的算法、公共的這些功能都封裝好,讓更多的單位可以參與大數(shù)據(jù)的淘金。另外我們降低挖掘成本,我們有大數(shù)據(jù)的時候可以降低成本。剛才講數(shù)據(jù)的公式后面減掉的是成本,成本越低你的價值越大,這就是我們作為GIS軟件研發(fā)單位做這個工具的意義。
我們就提出全面擁抱大數(shù)據(jù)的GIS技術,包括哪些內容呢?包括這兩個柱子,一個是空間大數(shù)據(jù)技術,這個是專門針對空間大數(shù)據(jù)的。另外一根柱子是傳統(tǒng)GIS傳統(tǒng)的功能進行分布式重構,它重構的目的是為了解決傳統(tǒng)的數(shù)據(jù)或者針對經(jīng)典的空間數(shù)據(jù)來的。同時我們還需要兩個支撐的技術,一個是云GIS的技術,因為沒有云的大數(shù)據(jù)是空中樓閣,還有需要一個跨平臺的GIS技術。
我們先來介紹一下,從底往上介紹,先介紹支撐技術云GIS技術,云計算作為計算資源層,可以支撐上面大數(shù)據(jù)的處理,所以云GIS也就是大數(shù)據(jù)GIS支撐技術。我們可以歸結為4+2,4是四大服務器軟件,基于微服務架構的GIS應用服務器,要有一個微服務的架構去重新構建它。這個不是整個軟件啟動起來,是每一個服務的模塊都可以單獨啟動,這樣可以節(jié)省更多的資源。
第二個是云GIS門戶;第三個是需要一個分布式加速器,叫GIS分發(fā)服務器,在一個多層級架構的時候可以通過它前置來降低對網(wǎng)絡帶寬要求提高性能。第四個是云GIS服務管理器。
兩大技術,一個是支持虛擬化,還有一個是支持容器技術,這是最新云的技術,Docker,這里今天沒有時間,可能就不講了。是性能更高,更節(jié)約資源的新一代云的技術。第二個是云端互聯(lián)技術,可以把各端無縫連接起來的這樣一個技術。
大數(shù)據(jù)技術棧很多技術都原生于Linux,這些技術都在Linux社區(qū)里面去產(chǎn)生的,而且Linux具有更高性能更穩(wěn)定的效果,所以我們在Windows上研究只是做一個試用,可能真正生產(chǎn)的時候不會在Windows上做,否則的話效率可能不是更好。
我們講效率問題,這個重構是針對空間大數(shù)據(jù)的,不是大數(shù)據(jù)的。因為我們傳統(tǒng)GIS應用當中的海量數(shù)據(jù)已經(jīng)對我們的GIS形成了很大的沖擊和挑戰(zhàn),現(xiàn)在我們都用瓦片形成用戶體驗,但是瓦片數(shù)量巨大,很難管理,復制重建要去分發(fā)非常痛苦。再一個,我們矢量數(shù)據(jù)里面,當單一一個表記錄數(shù)過億的時候,訪問性能急劇下降。所以海量數(shù)據(jù)空間分析也非常費時間,不是一個線性增長的,它的數(shù)據(jù)量增長一倍,它的時間可能要增加十倍,這是讓我們傳統(tǒng)的GIS應用在數(shù)據(jù)量增長的情況下面臨的一個新的挑戰(zhàn)。比如說我們做了一個例子,我們做Overlay,當有1億個的時候需要10個小時600多分鐘,這樣完成領導交給的一個任務就非常痛苦,10個小時。所以我們需要對傳統(tǒng)GIS已有的功能進行分布式重構,就源于大數(shù)據(jù)??臻g數(shù)據(jù)處理進行分布式存儲,還有對空間數(shù)據(jù)算法進行分布式改造等等。這是適用于經(jīng)典空間信息的分布式存儲技術,包括Postgres—XL,包括MongoDB,還有HDFS,上面的查詢能力更強,下面的分布式存儲能力更強,這個我們要根據(jù)情況選擇使用。
分布式空間分析與數(shù)據(jù)處理有那些?我們進行空間分析,疊加分析、緩沖區(qū)分析、空間查詢,包括數(shù)據(jù)處理,創(chuàng)建索引、復制數(shù)據(jù)集、數(shù)據(jù)集裁剪等等,我們需要改造它提高它的性能。
舉個例子,剛才那個傳統(tǒng)的算法要600分鐘,我們改造之后的分布式算法只要11分鐘,性能提高了10倍。這是以某省測繪局數(shù)據(jù)疊加分析,用32CPU的一個很好的計算機,用了4個節(jié)點的CPU,機器更差了,數(shù)據(jù)提高20倍,這就是可以讓我們性能提高這多。以前我們做算法的程序員很痛苦,提高15%就很痛苦了,現(xiàn)在提高10倍。
這個是空間大數(shù)據(jù)的存儲,以前我們經(jīng)典的存儲引擎有文件類,有數(shù)據(jù)庫的,也可以有Web的,在新的情況下我們增加了空間大數(shù)據(jù)引擎,包括HDFS,MongoDB等等,以后還會有新的方法增加進來,這樣就可以管理原來我們無法管理的空間大數(shù)據(jù)。
第二個是數(shù)據(jù)的空間分析,我們這里提供了這樣的一些空間分析,包括模式分析、OD分析,熱點分析,密度分析。還有各種數(shù)據(jù)匯總,聚合分析等等,有18個框架來處理的。
舉三個例子來看,第一個是OD分析,計算各起點和終點間的通行量,比如說住在北京天通苑的人都在哪兒上班去了,在國貿(mào)上班的人都是從哪個空間來的。這是在重慶做的一個例子,右下方的點這個地方住的人都去哪兒上班了,就知道在各個地區(qū)的量是多少。反過來,從目的地的點也可以知道他是從哪兒來的,這就是OD分析。這種OD分析完了之后可以做什么呢?做交通規(guī)劃,道路的規(guī)劃。
這個是基于地鐵刷卡記錄的,天通苑早上都往上走,國貿(mào)往里走,這些從哪兒來的都可以分析出來。到了下午6點以后,天通苑往里走,國貿(mào)往里走,到了9點以后基本上差不多了,這是主要的流動過程等等,都可以分析出來。
第二個介紹大數(shù)據(jù)空間分析之熱點分析,異常的東西都讓人感興趣,比如說特別高的地方和特別低的地方,這里熱點分析就分析熱點和冷點,對點要素進行統(tǒng)計學計算,尋找熱點和冷點。
我們看它的一個分析結果,把全球的航班軌跡的熱點分析,我們可以看出經(jīng)濟最發(fā)達的地區(qū)在哪兒,美國的東海岸、歐洲,還有中國,這是航班的熱點分析。
一個是密度分析,它不僅僅計算區(qū)域內的影響,還考慮周邊的影響,它的算法就跟剛才有所不同。我們可以看這個例子,這是一個船,貨輪軌跡的密度分析,我們可以看到中國東部這個密度遠遠高于歐洲和美洲,所以中國崛起的速度還是蠻快的,從這個上面可以看出來。這是放大的一個情況,這是一些右邊性的質量的多邊圖,不同的顏色是不同的值。
這是商業(yè)選址的分析,女人的衣柜里永遠少一件衣服,所以買衣服是她們的天性。這是上海關心女裝的人在哪兒分布,你要賣女裝在哪兒開店,這張圖可以告訴你,這是用上網(wǎng)的數(shù)據(jù)來分析的。
再有就是聚合分析,完全不考慮邊界外的影響,只考慮區(qū)域內統(tǒng)計的情況。我們可以看到右邊是公安的戶籍人口,這個區(qū)域里面有多少戶籍人口。左邊是手機上網(wǎng)大數(shù)據(jù)挖掘,10點鐘的時候這個人口分布情況,這個是典型的。
我們看剛才有聚合分析、密度分析,看起來很像,其實它是有差別的,周圍有一個較高值包圍,而聚合分析沒有這個情況,是一個明顯的分散。這是天上飛的飛機在不同的格子里面有多少,這可以放大。
這是重慶的一個出租車早上早高峰出租車下車點的一個聚合分析結果圖,用三維來表達,柱子高的地方是這個地方下車的人多。這個是大數(shù)據(jù)的空間分析。
我們再來看流數(shù)據(jù)的實時處理,其實大數(shù)據(jù)的很多特點就是數(shù)據(jù)像河流一樣流過來,順序、快速、大量、持續(xù)到達,我們需要用一個工具來處理它。我們上面一個基于空間位置的SupcrMap Streaming處理,這個我們非常關心時間。這個我們提出一些流數(shù)據(jù)實時處理的算法,實時動態(tài)判定哪些目標落入圍欄,實時判斷目標有沒有進入哪個范圍,比如航班有沒有離開機場,這是一個全球的航班,黃點就是進入機場附近,藍色的點還在路上飛行,可以不斷地計算,不斷地輸出結果,高告警告警,該通知通知。
還有實時路況,你分析出來也可以發(fā)布實時路況。這是重慶綜合市情系統(tǒng)引用交通規(guī)劃院的實時路況的算法來進行實時的處理,實時的分發(fā)結果。
最后一個是大數(shù)據(jù)空間可視化,其實前面我們已經(jīng)看到很多可視化,其實沒有可視化這些分析功能都是感覺不到的。左邊是我們剛剛提到一部分的大數(shù)據(jù)空間分析算法,右邊是空間可視化技術,熱力圖可以表達聚合分析結果和熱點分析結合和密度分析結果,矢量也可以表達這三個,不同的圖表達不同的分析結果。
我們還可以給大家展示一些更炫酷的連線圖,這是重慶出租車的流量圖,可以用這個來表達。也可以換一種方式來展示,這是在一個三維城市的里面去展示出租車實時的一個動態(tài)的流動的情況,我們甚至還可以放大,看到這些車流在樓宇之間去流動,這個技術發(fā)展很快。
這是北京T3航站樓飛機起飛降落的,飛機不是直線下來,都是轉個彎,這都是連線圖的展示。還有一些高性能的目標動態(tài)可視化,比方說我們要監(jiān)控天上幾千架飛機,我們的程序員后來說幾萬架我們也可以,今年幾十萬個動態(tài)目標也可以在屏幕上展示,當然這個展示無意義,但這是程序員追求的目標,這是50萬個目標。
我們可以監(jiān)控全球貨輪實時運行的情況,當然這里可以看到亂碼,這是航海必須經(jīng)過的地方。這是高性能的一個可視化技術,還有一些不介紹了,都刪掉了。
空間大數(shù)據(jù)技術,我們簡單介紹一下,大數(shù)據(jù)的空間分析技術、流數(shù)據(jù)實時處理技術以及大數(shù)據(jù)空間可視化技術,這是針對空間大數(shù)據(jù)的這樣一些技術。還有一個是數(shù)據(jù)清洗,原始數(shù)據(jù)進來有很多你不希望存儲的冗余數(shù)據(jù),還有一些范圍錯誤數(shù)據(jù),還有一些飛點數(shù)據(jù)、道路外數(shù)據(jù)以及坐標數(shù)據(jù)缺失的,不同數(shù)據(jù)源的清洗方法和算法也不一樣。清洗之后才可以進行存儲,進行進一步的精加工或者做挖掘分析。
大數(shù)據(jù)GIS架構,,最底層是來存儲數(shù)據(jù)。第二步是空間大數(shù)據(jù)組件,把空間大數(shù)據(jù)處理的這些算法和功能包了一個組件,包括數(shù)據(jù)處理,包括空間大數(shù)據(jù)分析的。在服務器端,去調用組件的功能來實現(xiàn),邊上是管理器,因為我們需要讓它來調用這些計算和服務。上面就是各種端的軟件,都可以通過調用服務器功能來實現(xiàn)大數(shù)據(jù)可視化的能力,是在端內來實現(xiàn)的。這是一個大數(shù)據(jù)GIS的一個粗略的框架。
但是大數(shù)據(jù)GIS系列軟件之間的關系,底下是云計算資源,中間是18個組件框架,上面是服務器GIS來調用這些組件來完成工作,是端去調用服務器來交付,實現(xiàn)可視化,邊上是這個管理器。這是大數(shù)據(jù)GIS幾個軟件之間的關系,核心的功能實際上在組件里實現(xiàn)的,而組件又跑到18個框架里去實現(xiàn)。
我們回顧一下全面擁抱大數(shù)據(jù)的GIS技術,包括空間大數(shù)據(jù)存儲管理、大數(shù)據(jù)空間分析、六數(shù)據(jù)實時處理、大數(shù)據(jù)空間可視化。另外一個是傳統(tǒng)GIS的分布式重構,包括海量空間數(shù)據(jù)分布式存儲、空間數(shù)據(jù)處理分布式及改造和空間分析分布式計算改造。再有兩個是跨平臺GIS技術,這是兩個技術框架。
大數(shù)據(jù)技術的戰(zhàn)略意義不在于擁有大數(shù)據(jù),而在于我們有沒有擁有大數(shù)據(jù)挖掘和加工的能力,如果有這個技術別人的大數(shù)據(jù)你也可以去發(fā)揮價值。我沒有大數(shù)據(jù),別人的大數(shù)據(jù)不給我怎么辦?因為很多大數(shù)據(jù)涉及到隱私,比如打個電話到什么位置他可能不愿意給我們,這個時候怎么辦?我們就把冶煉的裝備拉到礦山里去。也就是說你把這個數(shù)據(jù)分析的工具軟件開發(fā)好,這個是我們追求不求所有,但求所用,這樣的一個目標去協(xié)調數(shù)據(jù)資源的時候就好辦了。
舉個例子,在時空信息云與大數(shù)據(jù)平臺,有些部門的數(shù)據(jù),比如說自來水公司、燃氣公司、公交公司、出租車公司,這些公司規(guī)模比較小,我們可以跟他協(xié)調,我們把我們的地圖服務發(fā)給他,把他的數(shù)據(jù)交換出來處理,挖掘分析出結果再放到我們的平臺上再提供給其他部門。比如說通訊運營商、電網(wǎng)、互聯(lián)網(wǎng)私有云,他們的數(shù)據(jù)不可以交給我們,我們可以把我們的服務提供給他,讓他進行分析,用我們的地圖去換大數(shù)據(jù)或者大數(shù)據(jù)分析結果。
我們再回過頭來看這個光環(huán)曲線,不要再頂峰的時候因為時髦而加入,有可能投了很多錢沒有產(chǎn)生結果,因為那個技術不成熟,大家期望又很高,結果達不到預期的期望,所以大家會失望,會進入一個低谷期。同時也別因過時而錯過,這個時候我們才該搞大數(shù)據(jù),因為我們是產(chǎn)業(yè)單位,我們是生產(chǎn)單位。所以我們在大數(shù)據(jù)滑向低谷期的時候,就是該反彈了,就是在座的各位該介入大數(shù)據(jù)的時候了。
所以我們一起擁抱大數(shù)據(jù),擁抱新社會。謝謝大家!
{{item.content}}