
中國科學(xué)院院士、泰伯研究院名譽院長 龔健雅
以下為中國科學(xué)院院士、泰伯研究院名譽院長龔健雅所作的題為《空間大數(shù)據(jù)時代的挑戰(zhàn)與思考》的特邀演講(內(nèi)容未經(jīng)本人審核):
各位領(lǐng)導(dǎo)、各位來賓,還有各位同事,今天非常感謝組委會邀請我來這里做一個交流。
我首先聲明一下,這個報告里面沒有太多很深的東西,在這里可能更多是帶來一些思考或者是我們面對時空大數(shù)據(jù),目前存在的一些問題。當(dāng)然作為一名教授,也許可能我在邏輯上,會把目前的一些內(nèi)容進(jìn)行梳理,下面首先從這幾個方面看地理信息科學(xué)技術(shù)和服務(wù)整個的發(fā)展。
一、數(shù)據(jù)獲?。洪_始從測繪遙感到社會感知。今天看到程濤教授很多的技術(shù)手段,很多不是測繪遙感的,是社會感知的。
二、數(shù)據(jù)管理:從靜態(tài)到實時。
三、數(shù)據(jù)分析:從空間到時空一體化分析。
四、數(shù)據(jù)應(yīng)用:特別是今天看到很多的公司,可能不是一些專業(yè)的公司,而是到了大眾化的。
下面我分幾個方面進(jìn)行介紹。
首先看一下信息的獲取。對于一個社會來說,信息獲取由三個大部分組成,一個是物理,一個是人類本身,一個是信息。從物理世界到人類社會到信息空間,可能以前更多偏重于右邊,通過測量、遙感、傳感器和野外的調(diào)查,現(xiàn)在從社會感知設(shè)備,從網(wǎng)絡(luò)、Web或者是智能手機(jī)、移動網(wǎng)絡(luò)、導(dǎo)航定位設(shè)備、可穿戴設(shè)備以及視頻各種信息,這發(fā)生了深刻變化。當(dāng)然稱謂也是非常清楚,遙感也是學(xué)了幾十年,這些信息讓我們獲取了很多的信息。
最近幾年傳感的發(fā)展,從地表的傳感到水下的傳感都已經(jīng)應(yīng)用成熟,大量應(yīng)用于環(huán)保、氣象以及各個部門。今天應(yīng)用的除了物理感知之外,更多是社會感知,包括互聯(lián)網(wǎng)像Facebook、微博、微信等有大量的信息每天都在網(wǎng)上,這些信息大量反映經(jīng)濟(jì)社會發(fā)展的現(xiàn)狀,也包括人文的一些理解和信息,也包括人的相關(guān)觀點模型。
另外就是智能手機(jī),很多學(xué)者對智能手機(jī)的應(yīng)用做了各種各樣的應(yīng)用方法,包括個人的行為。
第三,導(dǎo)航設(shè)備。今天百度給大家看了很多交通的信息,我們的導(dǎo)航信息提供的,包括實時的交通信息、路況各種信息,都是由導(dǎo)航設(shè)備得到的。
第四,視頻監(jiān)控。城市里頭現(xiàn)在有大量的視頻,每個城市都有幾十萬、上百萬,這些視頻從原理上說既是感知物理世界的視頻,同時也是感知人類社會的一個視頻。對人流量感知,對突發(fā)事件的感知,都會有很大的信息獲取。
最后,可穿戴設(shè)備?,F(xiàn)在很多人戴的手環(huán)、表,這些可穿戴設(shè)備本身提供很多的信息,包括個人、群體的信息等。
現(xiàn)在的問題是遙感獲得了一些信息,社會感知傳感器獲得了一些信息,而這些信息從理論上來說可以更好理解客觀的世界、物理的世界。但是挑戰(zhàn)相當(dāng)明顯。
第一知道測繪遙感有嚴(yán)格的產(chǎn)品標(biāo)準(zhǔn)和生產(chǎn)技術(shù)規(guī)程,社會感知數(shù)據(jù)沒有標(biāo)準(zhǔn)規(guī)范,模態(tài)多樣、雜亂無章,如何梳理成可信的數(shù)據(jù)是一大挑戰(zhàn)?,F(xiàn)在做了很多年的研究,基本上沒有哪個部門說用這些研究的東西做一個正式的決策,但是我們測繪遙感的數(shù)據(jù),大家用的都非常順手。
如果兩類數(shù)據(jù)要融合的話,它的量不一致,時空尺度不一致,精度不一致,可靠性不一致,兩類數(shù)據(jù)如何集成,信息和空間如何融合?這是第一個挑戰(zhàn)。
第二個挑戰(zhàn)是從動態(tài)到實施,以前做研究獲取信息的方式,無論是測繪還是遙感,都是在某一個時刻經(jīng)過時得到的信息。往往把數(shù)據(jù)導(dǎo)到數(shù)據(jù)庫里面進(jìn)行管理,但是今天從傳感出來和各種感知設(shè)備出來之后,這種管理的模式已經(jīng)不再適應(yīng)。我們迫切需要發(fā)展一種新的地理信息系統(tǒng),也就是實時的GIS。
我們的GIS數(shù)據(jù)庫來說,從原來傳統(tǒng)的GIS發(fā)展到時空,以前時空相對來說只是一個版本的問題,或者是更新狀態(tài)的表達(dá)。現(xiàn)在真得要發(fā)展是實時的獲取和實時的計算分析,這個時候它整個的管理,從傳感器的數(shù)據(jù)進(jìn)來,社會感知的數(shù)據(jù)進(jìn)來,動態(tài)的更新、動態(tài)的索引,以及動態(tài)的分析和服務(wù),這個時候需要實時的地理信息系統(tǒng)。
前幾年,在國家的“863”支持下,專門開發(fā)了一個實時的地理信息系統(tǒng)。這個系統(tǒng)首先第一件事是說要有一個數(shù)據(jù)模型,這個數(shù)據(jù)模型從原來傳統(tǒng)的數(shù)據(jù)模型加上這個狀態(tài),用事件來驅(qū)動,再用整個的時空過程,無論是模擬還是關(guān)聯(lián)都需要得到這些信息。這個里面需要傳感器,也需要感知的設(shè)備,每時每刻得到數(shù)據(jù),這是一個很嚴(yán)格的模型。
最關(guān)鍵的一點是,我們不能用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,我們知道關(guān)系型數(shù)據(jù)庫重要的特點是并發(fā)控制,當(dāng)你加一條記錄時,必須要鎖住數(shù)據(jù)庫,這個時候需要采用非關(guān)系型的,數(shù)據(jù)流隨時進(jìn)來,這個時候不需要鎖數(shù)據(jù)庫。所以我們要有一個索引是實時動態(tài)的,以前做GIS知道把這個數(shù)據(jù)庫導(dǎo)入進(jìn)來,呈現(xiàn)一個索引,非常費時間。如果這樣的話,就無法大量實施。
現(xiàn)在我們采用MongoDB非關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)隨時隨地進(jìn)來,隨時隨地進(jìn)行計算,不需要把它鎖住,這解決很大的痛點。另外還要有索引,索引是在流入的數(shù)據(jù)過程中自動增加和改進(jìn),在整個過程中不需要重新建數(shù)據(jù),后面開發(fā)一個管理系統(tǒng)。
我想這是實驗室開發(fā)的管理系統(tǒng),索引的數(shù)據(jù)可以實時進(jìn)來,這些實時的包括機(jī)動車,包括飛機(jī),大量的數(shù)據(jù)實時進(jìn)來。以前做的很多人看到是文件管理,而GIS是GIS,文件是文件,現(xiàn)在把它們合在一起,是整個在數(shù)據(jù)庫下面的實時分析。
現(xiàn)在的問題是什么呢?傳統(tǒng)的數(shù)據(jù)庫以前只能管理室外,擴(kuò)展以后可以管理空間數(shù)據(jù)?,F(xiàn)在要甩開數(shù)據(jù)庫了,能不能用非關(guān)系型數(shù)據(jù)庫來管理傳統(tǒng)的影像等,在計算的時候能不能再次計算,同時同步計算,效率非常高,這是一個挑戰(zhàn)問題。
第二個挑戰(zhàn)問題,要來接社會感知的數(shù)據(jù),社會感知的數(shù)據(jù)雜亂無章需要清理,清理后需要入庫,還是在線清理,都是一系列的問題。傳感網(wǎng)的數(shù)據(jù)很大,是把傳感網(wǎng)的數(shù)據(jù)直接存進(jìn)來,還是摘取,這都對我們帶來挑戰(zhàn)。
第三部分講一下分析這塊,我們學(xué)了幾年的GIS,其中有一門課就叫空間分析。最典型的空間分析,大家知道疊置分析、緩沖區(qū)分析、網(wǎng)絡(luò)分析,這些東西很經(jīng)典做了很多年,它在做的時候應(yīng)該說非??尚诺摹?/p>
這是廣州市利用疊置分析做它的道路,整個算法和結(jié)果都非常可信。這是緩沖區(qū)分析,這是網(wǎng)絡(luò)分析,網(wǎng)絡(luò)分析大家認(rèn)為在10年、20年以前還有可研究的東西,現(xiàn)在沒有了。現(xiàn)在隨便在導(dǎo)航系統(tǒng)里頭只要發(fā)這個點到那個點,算出來的路基本上不會有錯誤。但是,我的意思是說空間分析的算法,已經(jīng)在教科書里頭,而且比較成熟。
但是后面最近幾年的發(fā)展,包括傳感網(wǎng)的發(fā)展數(shù)據(jù)已經(jīng)進(jìn)來了,我們也做了分析,這是一個例子,被幾萬個傳感器都進(jìn)來,從管理來說沒有問題。在實時的一些計算也在做,做了以后也能夠算出來一些,但是這些傳統(tǒng)的包括實時的動態(tài)模擬,我認(rèn)為這些還是有不少的挑戰(zhàn)?,F(xiàn)在通過降雨量,通過土壤的濕度分析預(yù)測水位,這都是有一系列的模型和算法。
時空網(wǎng)絡(luò)的分析,除了剛才講的靜態(tài)的網(wǎng)絡(luò),現(xiàn)在已經(jīng)開始有動態(tài)的網(wǎng)絡(luò)。今年百度也分析了,每一個城市網(wǎng)絡(luò)之間的人群分析。我們要挖掘這些城市的特征,城市的一些人群變化規(guī)律,我們對城市人群活動空間,出了很多圖,科學(xué)家們發(fā)明了很多的方法。
今天程濤教授也講了一下基于統(tǒng)計的分析,基于機(jī)器學(xué)習(xí)的分析。我想不同的時間這是24小時,整個的居住區(qū)、辦公區(qū)、商業(yè)區(qū)的分析,都做了大量工作,這是時譜曲線。
針對出租車做了大量分析,通過出租車的軌跡,來分析交通的關(guān)鍵節(jié)點,里面有很多的關(guān)鍵網(wǎng)絡(luò)提取和研究方法。包括動態(tài)目標(biāo),人、車實時的狀態(tài)分析,都做了大量工作。
但是,我想以我們傳統(tǒng)的GIS相比,我們有很好的空間分析方法,這些空間分析方法經(jīng)過幾十年的發(fā)展已經(jīng)成熟了,也在教科書里頭。但是今天時空數(shù)據(jù)的分析這塊,看到很多的文章發(fā)表,最近文章發(fā)的都很多。但是現(xiàn)在的問題這些方法是不是有普世性,是不是可信、可靠,我想從理論上來說還需要很多年的時間。但現(xiàn)在的問題是說,我們這次大數(shù)據(jù)的潮流來得太大太快太猛了,可能來不及測試這些方法,他們的可信度、能力怎么樣?這些都需要進(jìn)一步梳理和分析。
最后,數(shù)據(jù)的應(yīng)用。從專業(yè)到大眾,最早做GIS都知道是為了地圖服務(wù),數(shù)字制圖,從原來的手工制圖通過計算機(jī)采集以后,能夠在計算機(jī)飛到紙質(zhì)上。后來應(yīng)用土地利用規(guī)劃,國家最早的應(yīng)用是測繪,第二個部門是規(guī)劃和國土。國土大量的應(yīng)用,現(xiàn)在這已經(jīng)成為了必須要用的工具,無論是規(guī)劃領(lǐng)域還是土地領(lǐng)域,像土地變更調(diào)查完全都是基于GIS做的。
在國土土地的交易,城市管理,我們國家的城市管理,特別是網(wǎng)絡(luò)化管理以后,主要的城市都實現(xiàn)了各種各樣的管理和決策系統(tǒng),包括城市的狀態(tài),城市的一些辦公、案件,我想這都是各個GIS的公司,目前在這個層次上都做的大量的工作,技術(shù)也都非常成熟。
但是現(xiàn)在的發(fā)展到了兩個方向,一個是大眾,大眾里頭最多的每天出行,百度說一天90幾億的訪問量,我想可能導(dǎo)航最多。除了這些導(dǎo)航之外,可能大家到哪個地方找酒店,到哪個地方找餐館,到哪個地方找旅游景點,只要有一點文化的人能夠上網(wǎng)都可以使用。包括滴滴打車、共享位置、大眾點評很多了。
以前在網(wǎng)上對于大眾來說只是用信息,另外一個發(fā)展趨勢大家貢獻(xiàn)信息、提供信息,通過公眾本身就能夠建立一個地理信息系統(tǒng)。也就是從大眾來說,已經(jīng)開始從應(yīng)用走到產(chǎn)生。
但是現(xiàn)在一個問題也要思考,GIS是個專業(yè),傳統(tǒng)的GIS系統(tǒng)要經(jīng)過培訓(xùn)才能應(yīng)用。包括對政府工作人員的培訓(xùn),大眾能不能用?或者用的怎么樣?從目前來看還是用的不錯。就是說你給一些功能,大眾本身就有很好的用法,不用太復(fù)雜,這沒有問題。
但是從數(shù)據(jù)來說,專業(yè)GIS對數(shù)據(jù)有嚴(yán)格的檢查,可信度高。大眾做的GIS,這個時候大家是否放心,質(zhì)量如何保證?這些都需要重新思考來做的事。
網(wǎng)上有很多的GIS,現(xiàn)在我想各種應(yīng)用都有,但是目前的用戶都在不同平臺上開發(fā)。有些可能在百度上開發(fā),有些可能在高德開發(fā),現(xiàn)在不同平臺上開發(fā)的系統(tǒng),能不能共享和融合。
今天李朋德局長舉的例子,可能很多的共享單車都應(yīng)用GIS,但是本身做GIS系統(tǒng)時沒有共享,都不在一個平臺上開發(fā),這個時候如何保證信息的共享,這些都是值得我們思考和解決的問題。
最后,還是以這個做總結(jié)。從發(fā)展趨勢來說,GIS已經(jīng)從測繪遙感發(fā)展到社會感知,當(dāng)然不是說測繪遙感的問題都解決了。現(xiàn)在很多的研究學(xué)者面臨很多的問題是社會感知的傳感器進(jìn)來的數(shù)據(jù),我想今天有不少的報告都涉及到。
第二,從數(shù)據(jù)管理來說,從原來的靜態(tài)走向?qū)崟r。實時里面,除了管理之外,還是實時的分析和實時的計算。進(jìn)一步我想目前的開發(fā)者可能還沒有意識到,但是你要做一個真正應(yīng)用系統(tǒng)時,從傳感器和感知數(shù)據(jù)進(jìn)來,政府部門做決策時,這個問題是擺在我們面前的,必須要解決,可能傳統(tǒng)的GIS面臨著一些挑戰(zhàn)。
另外,數(shù)據(jù)分析。從原來的空間分析到時空,空間分析更多是基于統(tǒng)計和幾何,現(xiàn)在時空分析統(tǒng)計也許還會更多引進(jìn)機(jī)器學(xué)習(xí)的分析方法,還有其他神經(jīng)網(wǎng)絡(luò)方面的分析方法。
第四,應(yīng)用。從專業(yè)到大眾化的應(yīng)用,只有一個產(chǎn)業(yè)發(fā)展到大眾化應(yīng)用時,這個產(chǎn)業(yè)才會真正做大。
大家都說GIS怎么也不可能到一萬億,因為你政府部門不只有這么多。但只要打開了從專業(yè)到大眾化的應(yīng)用這條路,也許就可以到萬億級別。據(jù)說現(xiàn)在大概四千億左右,我們有可能會到萬億的產(chǎn)業(yè)。
在整個現(xiàn)在的技術(shù)手段、設(shè)備、軟件、研究、算法這些方面如何應(yīng)對?我想今天在這里給大家提一個題目,“如何面對這樣的挑戰(zhàn)”?
好,我的演講到這里,謝謝大家!
{{item.content}}