InfoQ: 請您向InfoQ的讀者做下自我介紹吧!
盧萌:我叫盧萌,2005年大學(xué)畢業(yè)后就進(jìn)入了GIS這個(gè)行業(yè),碰巧的是2005年正是谷歌地圖發(fā)布的那一年,各種WebGIS在中國開始大行其道,所以我應(yīng)該算是國內(nèi)做WebGIS比較早的那一撥人了。在這些年中,做了不少項(xiàng)目,后來進(jìn)入了Esri中國,目前在Esri中國政府行業(yè)技術(shù)部擔(dān)任高級產(chǎn)品咨詢師的職務(wù),主要研究的方向是傳統(tǒng)GIS領(lǐng)域中的空間分析、空間統(tǒng)計(jì)等技術(shù),同時(shí)也對云GIS、海量數(shù)據(jù)挖掘等新技術(shù)應(yīng)用有過一定的涉獵。
InfoQ: 請問盧老師GIS領(lǐng)域目前國內(nèi)外發(fā)展情況如何?
盧萌:借用WEB時(shí)代的說法,我們也把網(wǎng)絡(luò)時(shí)代的GIS發(fā)展,分為1.0、2.0和正在邁向的3.0時(shí)代。
1.0時(shí)代,GIS是專業(yè)人士玩的東西,主要是通過一小批專業(yè)人士做出各種地圖或者應(yīng)用,然后通過網(wǎng)絡(luò)發(fā)布到出去,廣大的用戶通過瀏覽器來查看地圖,也就是一個(gè)人發(fā)布,大家來看。 2.0時(shí)代是以交互為標(biāo)志的時(shí)代,GIS也是一樣,在業(yè)界,Esri最先推出的ArcGIS Online這類的平臺,提出了空間信息共享和協(xié)作的概念,我們能夠很輕易的獲取到各種專業(yè)的空間數(shù)據(jù),并且這些數(shù)據(jù)的來源除了專業(yè)機(jī)構(gòu),還有廣大的使用。在這個(gè)平臺中,每一個(gè)用戶都成了空間信息的發(fā)布者,也是信息的享用者。
而未來的3.0時(shí)代,將以一種更加智能的方式來獲取、使用空間信息,并且能夠直接獲取到我們需要的結(jié)果,而不僅僅是一堆地圖和數(shù)據(jù)。3.0時(shí)代是以服務(wù)為核心的時(shí)代。就像我們購買了一堆服務(wù)器,一堆軟件,部署了各種環(huán)境,編寫了很多代碼,那么我們的目的是什么?是想要那些服務(wù)器?那些軟件和那些代碼嗎?當(dāng)然不是,我們是通過這些基礎(chǔ)建設(shè)來解決我們的實(shí)際問題,獲取需要的結(jié)果。3.0的時(shí)代,我們更多的將這些基礎(chǔ)建設(shè)、分析模型和處理過程托管到以網(wǎng)絡(luò)為基礎(chǔ)的云環(huán)境中,我們只需要提出問題,然后獲取結(jié)果就可以了。
InfoQ:Hadoop目前涉及的科學(xué)領(lǐng)域很多,不僅包含眾所周知的互聯(lián)網(wǎng)行業(yè),也包括如能源開采、節(jié)能環(huán)保、生物醫(yī)學(xué)等領(lǐng)域。請問盧老師,Hadoop在GIS(地理信息系統(tǒng))這個(gè)領(lǐng)域有哪些典型的應(yīng)用場景,又是如何實(shí)現(xiàn)呢?
盧萌:傳統(tǒng)的GIS數(shù)據(jù)存儲,大多依托于各種關(guān)系型數(shù)據(jù)庫,但是數(shù)據(jù)庫由于其在海量數(shù)據(jù)管理、高并發(fā)讀寫、難以擴(kuò)展等方面,已經(jīng)開始的制約了GIS的發(fā)展。而且關(guān)系型數(shù)據(jù)庫一直在非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域難有作為,這一點(diǎn)更是致命傷。世界上90%以上的數(shù)據(jù)都是非結(jié)構(gòu)化的,GIS里面大量數(shù)據(jù)如影像數(shù)據(jù)等,都是非結(jié)構(gòu)化的。 而Hadoop以其高可靠性、高擴(kuò)展性、高效性和高容錯(cuò)性,特別是在海量的非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)上的分析處理優(yōu)勢,給我們提供了另外一種思路。 Hadoop的核心算法就是“分而治之”,這個(gè)與GIS里面很多算法是相通的,GIS里面很多應(yīng)用場景都是要去分析不同區(qū)域內(nèi)的各種信息,把這樣的計(jì)算放到Hadoop上,正好利用了Hadoop的分布式計(jì)算特性。特別是一直讓GIS界最頭痛的海量影像數(shù)據(jù)存儲和分析,在Hadoop的分布式存儲和分布式運(yùn)算架構(gòu)上,更是能夠體現(xiàn)出Hadoop在GIS應(yīng)用上的優(yōu)勢。
InfoQ:Esri公司推出開源環(huán)境“GIS Tools for Hadoop”,其中還包含了基于Hive的UDF,這將給地理信息這個(gè)行業(yè)帶來哪些新的機(jī)會(huì)呢?
盧萌:GIS Tools for Hadoop是Esri推出的基于Hadoop上的一套完整的空間大數(shù)據(jù)量處理的環(huán)境,包含有一套工具、一套API和一系列的框架。此環(huán)境的推出,擴(kuò)展在Hadoop上geomtry的類型和對空間數(shù)據(jù)的操作,讓開發(fā)人員能夠方便的在空間數(shù)據(jù)上構(gòu)建MapReduce應(yīng)用程序。
Hive是由Facebook首先研發(fā)的一個(gè)基于Hadoop的數(shù)據(jù)倉庫工具??梢詫⒔Y(jié)構(gòu)化的數(shù)據(jù)映射成數(shù)據(jù)表并提供類SQL的語言進(jìn)行數(shù)據(jù)查詢,適合于數(shù)據(jù)參考的統(tǒng)計(jì)分析。GIS Tools for Hadoop擴(kuò)展了Hive在Esri Geometry API上的應(yīng)用,使用戶可以通過hive進(jìn)行空間數(shù)據(jù)的處理。
數(shù)據(jù)倉庫一直都是一個(gè)比較熱門的領(lǐng)域,而在空間數(shù)據(jù)庫上構(gòu)建數(shù)據(jù)倉庫,進(jìn)行數(shù)據(jù)挖掘,更是一個(gè)比較新的話題。一個(gè)單位中需要在海量空間數(shù)據(jù)上做分析有各種不同的人員,有工程師也有專業(yè)數(shù)據(jù)分析人員,他們之間的計(jì)算機(jī)知識層次不一。所以構(gòu)建一套滿足各種人員和程序需求的基礎(chǔ)設(shè)施就很有必要。Hive在維持Hadoop靈活性和擴(kuò)展性的基礎(chǔ)上提供類似關(guān)系型數(shù)據(jù)庫的基本功能,在Hadoop文件系統(tǒng)上提供了方便的數(shù)據(jù)查詢和管理功能。
GIS Tools for Hadoop中包含了基于Hive的UDF(User-Defined-Function)這一功能,可以讓開發(fā)人員和數(shù)據(jù)分析人員能夠構(gòu)建面向業(yè)務(wù)的分析應(yīng)用,在GIS中有很多特定的算法和模型,通過UDF都可以加入到Hadoop中去。這樣看來,未來勢必會(huì)使用它來定制開發(fā)和搭建各種面向業(yè)務(wù)的個(gè)性化工具和軟件。
InfoQ: 既了解GIS又熟悉Hadoop開發(fā),這樣的人目前是不是比較稀缺?請您給大家一些學(xué)習(xí)和就業(yè)方向上的建議吧。
盧萌:雖然經(jīng)過了這些年的發(fā)展,熟悉GIS的開發(fā)人員一直還是供不應(yīng)求,而Hadoop在互聯(lián)網(wǎng)上作為“大數(shù)據(jù)分析”的代名詞,熟悉Hadoop的人員更是稀缺。據(jù)麥肯錫全球研究院的研究預(yù)測在未來6年,僅在美國就可能面臨缺乏14萬至19萬具備深入分析數(shù)據(jù)能力人才的情況。
對于Hadoop來說,最大的優(yōu)點(diǎn)就是開放性,因?yàn)樗情_源的,所以每天有數(shù)以萬記的程序員和愛好者在學(xué)習(xí)和研究Hadoop系統(tǒng)。作為一個(gè)新手,要學(xué)習(xí)Hadoop,最重要的就是動(dòng)手去操作,從安裝部署到優(yōu)化到開發(fā),一步一步的掌握MapReduce編程方式和各種應(yīng)用場景,了解Hadoop的實(shí)現(xiàn)原理和算法。當(dāng)然我們還可以去閱讀他提供的源碼,這也是開源軟件最大的好處。
學(xué)然后知不足,教然后知困。我們可以在一些社區(qū)或者博客上記錄在學(xué)習(xí)過程中的點(diǎn)點(diǎn)滴滴,當(dāng)有朝一日,回過頭來看我們曾經(jīng)走過的足跡,你會(huì)發(fā)現(xiàn),在不知不覺中,當(dāng)年的小樹苗已經(jīng)成長成為了參天大樹。
雖然目前IT界主流的開發(fā)還是依托在關(guān)系型數(shù)據(jù)庫上面的,但是我們可以在工作中去逐步推廣Hadoop的思想和應(yīng)用,去潛移默化的改變周圍的環(huán)境,未來Hadoop前景一定是光明的。
InfoQ: 除了Hadoop外,GIS還有其它并行計(jì)算的解決方案嗎?
盧萌:從ArcGIS 10.1開始,ArcGIS for Server變成了純64位的架構(gòu),即不再支持32位操作系統(tǒng)。 另外在ArcGIS 10.1的SP1包中,提供了ArcGIS 10.1 for Desktop—Background Geoprocessing (64-bit)補(bǔ)丁包,實(shí)現(xiàn)64位后臺地理處理,并且增加了新的“并行處理因子”環(huán)境,可以分跨多個(gè)進(jìn)程來劃分和執(zhí)行處理操作。在10.1 SP1中新增支持使用最多4核處理器進(jìn)行并行處理的功能,現(xiàn)已實(shí)現(xiàn)于一些空間分析工具當(dāng)中。 而在即將發(fā)布的ArcGIS 10.2中,更是更新了600多個(gè)軟件節(jié)點(diǎn),其中主要集中于軟件的質(zhì)量和性能增強(qiáng)。
InfoQ:最后一個(gè)問題,請問盧老師,您眼中的大數(shù)據(jù)的未來是什么樣的?
盧萌:大數(shù)據(jù)是現(xiàn)今非常時(shí)髦的IT詞匯之一。什么叫大數(shù)據(jù)?如果單純以量來看,在以MB為單位的硬盤存儲量的時(shí)代,TB甚至是GB可能就算是大數(shù)據(jù)了,而現(xiàn)在TB硬盤普及的時(shí)代,恐怕要PB甚至是EB才算大數(shù)據(jù)了。 在IDC最新的《數(shù)字宇宙》(Digital Universe)中預(yù)計(jì),到2020年,全球的數(shù)據(jù)存儲總量將達(dá)到35ZB。而且這個(gè)數(shù)字還是受到了存儲能力的限制。 對于大數(shù)據(jù),IBM提出了“三V”的概念,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。最近這兩年,著眼于數(shù)據(jù)應(yīng)用的專家們提出了“四V”的概念,就是在原有的“三V”的基礎(chǔ)上加上了Value(價(jià)值)。 毋庸置疑,最后一個(gè)V(Value),才是我們最值得關(guān)注一個(gè)V,做數(shù)據(jù)挖掘和數(shù)據(jù)分析的主要目的也就是為了實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。 未來是一個(gè)大數(shù)據(jù)的時(shí)代,在不久的將來,數(shù)據(jù)可能成為最大的一類交易商品。在互聯(lián)網(wǎng)上,繼“流量為王”、“應(yīng)用為王”之后,下一個(gè)概念應(yīng)當(dāng)就是“數(shù)據(jù)為王”。(張?jiān)拢?/p>
{{item.content}}