以下是佳格大數(shù)據(jù)產(chǎn)品副總裁顧竹,演講主題為“遙感大數(shù)據(jù)的商業(yè)運(yùn)用”。(該演講實(shí)錄中出現(xiàn)大量英文,正在于演講人確認(rèn)中,請(qǐng)諒解)
顧竹:謝謝大家,我很榮幸有這個(gè)機(jī)會(huì)為大家介紹一下我們佳格公司,包括我們回國(guó)以后做了城市、農(nóng)業(yè)方面的工作。我們團(tuán)隊(duì)包括我在內(nèi)是從美國(guó)航空航天局回來(lái)的,我們當(dāng)時(shí)在那里做一些關(guān)于衛(wèi)星影像觀測(cè)的一些工作。
剛才聽(tīng)了幾位專(zhuān)家包括張總等說(shuō)了我們國(guó)內(nèi)的智慧城市,包括GIS方面發(fā)展的技術(shù),我們的一些技術(shù)已經(jīng)不輸給硅谷了,包括數(shù)據(jù)的梳理、存儲(chǔ)等方面都是在前列的。之前我們的一些數(shù)據(jù)處理方式包括使用FTP的存儲(chǔ),現(xiàn)在對(duì)于大數(shù)據(jù)處理方面,大家都很熟悉的有(Hadoop)、(spark)?,F(xiàn)在處于一個(gè)計(jì)算機(jī)技術(shù)爆發(fā)的階段,有很多的開(kāi)源和共享的東西,大家可以在這個(gè)上面做很多之前沒(méi)有辦法做的事。
這個(gè)是2016年1月份我們統(tǒng)計(jì)過(guò)的整個(gè)世界范圍內(nèi)大家都開(kāi)始接觸大數(shù)據(jù)的一些公司,包括(esri),之前老的公司(oracle)都開(kāi)始對(duì)大數(shù)據(jù)進(jìn)行一些涉足。我們?yōu)槭裁磿?huì)有GIS,為什么會(huì)有矢量數(shù)據(jù)?其實(shí)在上世紀(jì)八十年代,我覺(jué)得包括像美國(guó)航天航空局等等這樣的公司,我們已經(jīng)在接觸大數(shù)據(jù),或者說(shuō)我們已經(jīng)接觸海量的數(shù)據(jù)了,為什么這樣說(shuō)呢?上世紀(jì)八十年代大家的存儲(chǔ)方式是什么?是1.4寸的軟盤(pán),當(dāng)時(shí)的一張地圖是幾百兆甚至是上G的,那個(gè)時(shí)候我們遙感影像就是1個(gè)G的。我們?cè)趺礃幼鲭娮拥貓D呢?GIS怎么樣生存呢?我們想出了一個(gè)辦法,就是實(shí)時(shí)矢量化,我們把一個(gè)幾百萬(wàn)像素才能描述的河流抽象成一個(gè)點(diǎn),我們把一個(gè)房屋抽象成一個(gè)四邊形。我們當(dāng)時(shí)都在計(jì)算機(jī)這些人之前的,我們當(dāng)時(shí)就知道如何應(yīng)用最簡(jiǎn)單的方式把最復(fù)雜的地表數(shù)據(jù)抽象成我們可以存儲(chǔ)處理的數(shù)據(jù),也就是我們大家一直使用的矢量數(shù)據(jù)。
我們現(xiàn)在有更多的方式比如說(shuō)(spark),他們有更多的開(kāi)源的分布式的處理方法或者是方案?,F(xiàn)在列出了幾個(gè)最火的互聯(lián)網(wǎng)公司,像谷歌、蘋(píng)果,他們?cè)谡腥说臅r(shí)候,我是把他們招的一些普通程序員的要求列出來(lái),大家可以看到,谷歌會(huì)要求你(postgis),蘋(píng)果會(huì)要求你(GDAL)。在硅谷這幾個(gè)最先進(jìn)的或者說(shuō)大的互聯(lián)網(wǎng)廠商,他們實(shí)際產(chǎn)品的開(kāi)發(fā)中已經(jīng)少不了GIS了,GIS是他們非常重要的組成部分。
數(shù)據(jù)用來(lái)做什么?比如說(shuō)一個(gè)很經(jīng)典的例子,星巴克為什么總是比其他地方會(huì)冷一點(diǎn),為什么?因?yàn)槟阌X(jué)得冷你就會(huì)買(mǎi)一杯咖啡,喝了會(huì)暖起來(lái)。這個(gè)道理很容易理解,星巴克使用這種商業(yè)模式或者是方式刺激大家去消費(fèi),那么是得多冷?你們不能太冷,那樣的話(huà)大家就不愿意走進(jìn)來(lái)。那么這個(gè)溫度是怎么樣調(diào)的?而且在中國(guó)和美國(guó)的星巴克的溫度是不是一樣的?不知道,那么我們?cè)趺醋??大?shù)據(jù)。
數(shù)據(jù)就是人類(lèi)對(duì)于事件或者說(shuō)對(duì)于事件存儲(chǔ),最簡(jiǎn)單的是結(jié)繩記事,你做一個(gè)事就打一個(gè)結(jié),但是您回過(guò)頭來(lái)想這個(gè)是什么事的時(shí)候,你又想不起來(lái)。人的思維方式就是這么簡(jiǎn)單,二進(jìn)制的計(jì)算機(jī)方式和數(shù)字沒(méi)有多大的區(qū)別,其實(shí)我們也是這樣的思維方式了。
這么多的數(shù)據(jù)表達(dá)方式里面,你看了以后會(huì)最直接最快的表達(dá)?我認(rèn)為是圖畫(huà),你在看到的時(shí)候可以把信息獲取到,圖畫(huà)是最直接、最切合人表達(dá)的一種處理方式。
大家都說(shuō)大數(shù)據(jù)時(shí)代,更多時(shí)候我們是走進(jìn)一個(gè)圖的時(shí)代。上世紀(jì)八十年代我們發(fā)明出GIS的時(shí)候,是因?yàn)槲覀兊募夹g(shù)限制,是因?yàn)槲覀兇鎯?chǔ)能力的限制,我們沒(méi)有辦法去存儲(chǔ)一個(gè)衛(wèi)星影像,我們是用了矢量的方式去替代?,F(xiàn)在云存儲(chǔ)、固定存儲(chǔ),我們有各種各樣的方式進(jìn)行存儲(chǔ),而且是越來(lái)越快。這個(gè)時(shí)候我們想,我們?yōu)槭裁床换貧w到最直接的切合人表達(dá)的方式。這是我一直考慮的問(wèn)題,舉個(gè)簡(jiǎn)單的例子,像dos的系統(tǒng),雖然我之前用,現(xiàn)在卻無(wú)法用。每一個(gè)操作你要去敲那一行的命令行,那個(gè)時(shí)候以后,比爾蓋茨就變成了世界首富,為什么?它把這些打開(kāi)、復(fù)制都用圖像化來(lái)表示。
還有一個(gè)例子就是大家經(jīng)常說(shuō)的表情包,為什么大家愿意用表情呢?因?yàn)楸砬楦鼙任淖直磉_(dá)你的感情和思維。你用文字很難敘述一個(gè)尷尬的表情或者是一個(gè)被雷到的表情。這就是為什么現(xiàn)在表情這么多,為什么現(xiàn)在BBS上,你要說(shuō)什么事,你要表達(dá)什么不如直接放一張圖。
之前為什么大家不用圖像?因?yàn)槲覀儗?duì)圖像的認(rèn)知能力太差了。比如說(shuō)你給計(jì)算機(jī)看一萬(wàn)張?zhí)O果的圖片,看完以后你再給計(jì)算機(jī)看你咬過(guò)一口,計(jì)算機(jī)會(huì)說(shuō)這個(gè)不是蘋(píng)果,因?yàn)槟愕男螤钌习l(fā)生了變化。但是給人來(lái)看的話(huà),他絕對(duì)不會(huì)說(shuō)咬了一口就不是蘋(píng)果了。為什么之前計(jì)算機(jī)的認(rèn)知能力那么的差?因?yàn)樗鼪](méi)有形成一個(gè)抽象的概念。不管這個(gè)蘋(píng)果怎么樣變,紅的、綠的,咬了一口,人在看的時(shí)候不會(huì)出錯(cuò)的,它一定是蘋(píng)果,我們有蘋(píng)果的抽象的概念,蘋(píng)果怎么樣變,我們的判斷是不會(huì)受影響的。計(jì)算機(jī)不一樣的,我在形狀、顏色、味道任何一個(gè)東西不一樣,都會(huì)有判斷。
如何解決這個(gè)問(wèn)題,我們就用深度的曲線(xiàn)。比如說(shuō)你車(chē)在前面開(kāi),前面飄來(lái)一個(gè)塑料袋,你肯定不停的。但是如果是一個(gè)兔子的話(huà),你肯定會(huì)停止。但是塑料袋和兔子的圖像是差不多的,是無(wú)法捕捉清楚的,所以我們首先做的是認(rèn)知世界,深度學(xué)習(xí)也是這樣的,我們先通過(guò)圖像把世界認(rèn)知出來(lái),分析出來(lái)。計(jì)算機(jī)不知道怎么樣玩,這個(gè)像極了人的學(xué)習(xí)方式,因?yàn)槟悴恍枰ソ桃粋€(gè)孩子去奪子彈,你只要告訴他,你停在這里,子彈過(guò)來(lái)把你打爆了,你就失敗了,這個(gè)像極了人。這個(gè)是人工智能正在往前走或者是我們正在做的事。他們的出發(fā)點(diǎn)都是一樣的,我們都去處理圖像,因?yàn)閳D像數(shù)據(jù)是我們未來(lái)更多要接觸的東西。
ALPHAGO的意義,人看到圍棋圖片的時(shí)候,你不用去管他怎么學(xué)這個(gè)東西,我們讓它去看這張圖片,它自然尋找中間的感覺(jué),它自然知道下一步怎么樣做。說(shuō)了這么多,回到我們公司正在做的事,我們做的是環(huán)境大數(shù)據(jù),有很多的包括氣象、土地、污染、降溫等等的數(shù)據(jù)。
整個(gè)環(huán)境大數(shù)據(jù)里面,什么樣的數(shù)據(jù)是最全面最典型的?我們說(shuō)是衛(wèi)星影像數(shù)據(jù)、遙感數(shù)據(jù)。技術(shù)上是覆蓋全球的,你在衛(wèi)星影像 上可以看到這個(gè)地球上的任何東西,這個(gè)世界上任何東西都是可以通過(guò)衛(wèi)星影像獲取的。
我們?cè)诳葱l(wèi)星影像或者是遙感數(shù)據(jù)的時(shí)候我們會(huì)獲得什么?Skybox這個(gè)公司,它最后被谷歌收購(gòu)了,他跟谷歌說(shuō),我可以做到計(jì)算全球的原油儲(chǔ)量。全球的原油儲(chǔ)量70%到90%都在這個(gè)海港儲(chǔ)存里面,它通過(guò)這張圖就說(shuō)服谷歌收購(gòu)它。技術(shù)很簡(jiǎn)單,但是我們可以通過(guò)它去做成。
我們通過(guò)自己的深度學(xué)習(xí)對(duì)地表做一些深入的分析,這里是對(duì)農(nóng)田的分析,大家接觸過(guò)或者聽(tīng)說(shuō)過(guò),國(guó)家進(jìn)行農(nóng)田的土地調(diào)查。中國(guó)的土地是非常破碎的,不像美國(guó)是一塊平整的。通過(guò)我們的計(jì)算方式很短時(shí)間內(nèi)把所有的地塊自動(dòng)劃分出來(lái),通過(guò)地塊自動(dòng)識(shí)別每一塊天地上的紋理、方向,包括它種植的作物種類(lèi),一個(gè)小時(shí)內(nèi)可以處理,基本上是3000×3000的數(shù)據(jù)。
我們現(xiàn)在做分類(lèi),遙感影像做分類(lèi)大家都熟知的,之前大家做矢量化都是用人工去做的,用機(jī)器學(xué)習(xí)的方式去做自動(dòng)化,有一點(diǎn)困難。我們現(xiàn)在用的方式,我們的精確度可以達(dá)到95%到97%。這個(gè)技術(shù)正在發(fā)展,我們會(huì)有更多的技術(shù)或者是解決方案出來(lái),幫助我們把之前的一些矢量化工作解放出來(lái)。
不知道大家是否看得出來(lái)這個(gè)是什么。這個(gè)是山東某個(gè)市的市郊,這個(gè)是蔬菜大棚的生產(chǎn)基地。大家可以看一下壽光是在這里,整個(gè)大棚的面積是壽光市的十倍,我們?nèi)司褪怯羞@樣的能力把整個(gè)地表都能夠改變,全世界都知道中國(guó)人這么厲害。我當(dāng)時(shí)看這個(gè)地圖以為是一個(gè)云,誰(shuí)知道是大棚。因?yàn)檫@個(gè)涉及到產(chǎn)量預(yù)估方面的東西,怎么樣做呢?傳統(tǒng)的方式去數(shù),但是無(wú)法數(shù),用傳統(tǒng)的機(jī)器解決方式也做不了,因?yàn)樗牟馁|(zhì)不一樣,它的太陽(yáng)光輻射是不一樣的。我們通過(guò)深度學(xué)習(xí)的方法,我們可以做到98%的精確度,我們可以在四個(gè)小時(shí)之內(nèi)前部數(shù)完,數(shù)字就不說(shuō)了,這個(gè)是客戶(hù)的數(shù)字。這個(gè)數(shù)據(jù)非??孔V,而且速度非常的快。
我們會(huì)通過(guò)衛(wèi)星、無(wú)人機(jī)做可視化的數(shù)據(jù)分析,大家在為每一個(gè)城市、每一個(gè)鄉(xiāng)鎮(zhèn)、每一個(gè)人畫(huà)屬性,我們通過(guò)每一個(gè)城市的特點(diǎn)因地制宜地差異化進(jìn)行發(fā)展,進(jìn)行提升。所有這些數(shù)據(jù)的搜集都與環(huán)境的數(shù)據(jù)分不開(kāi)。我們?nèi)绾尉C合這些環(huán)境的數(shù)據(jù)做更多的事,這個(gè)是佳格正在做的,也是希望在座的各位能夠讓我們學(xué)習(xí)到更多的東西,謝謝大家對(duì)佳格的理解。謝謝!
{{item.content}}