人類(lèi)幾千年的文明催生了城市的發(fā)展,計(jì)算機(jī)與復(fù)雜科學(xué)帶給我們新的資源——大數(shù)據(jù)。羅馬非一日建成,人力和時(shí)間成本極大,但試想一下,如果有了大數(shù)據(jù),羅馬的建成能夠縮短多少天呢?如今,城市里藏了大量數(shù)據(jù),那么它們到底是什么?又該如何被開(kāi)采與利用?大數(shù)據(jù)如何輔助商業(yè)選址?
11月29日的數(shù)據(jù)俠實(shí)驗(yàn)室,百度地圖資深研發(fā)工程師闞長(zhǎng)城為大家介紹了如何開(kāi)發(fā)和利用時(shí)空地理大數(shù)據(jù),并結(jié)合百度慧眼的商業(yè)案例,解釋了大數(shù)據(jù)在商業(yè)選址中的應(yīng)用。本文是其演講實(shí)錄。
大家好,我今天的分享主要是以下三個(gè)方面:
——地理時(shí)空大數(shù)據(jù)的介紹
——基于時(shí)空大數(shù)據(jù)和人工智能技術(shù)在城市規(guī)劃方面所做案例
——基于時(shí)空大數(shù)據(jù)的商業(yè)選址案例
▍地理時(shí)空大數(shù)據(jù)
交通流量、氣象信息、地理信息、手機(jī)信號(hào)均是時(shí)空數(shù)據(jù)。時(shí)空數(shù)據(jù)具有時(shí)間和空間屬性,時(shí)間屬性主要是指時(shí)間的變與不變;空間屬性一方面是指空間的位置,另一方面是指空間的層次和距離。
現(xiàn)實(shí)世界中超過(guò)80%的數(shù)據(jù)都與地理位置有關(guān),數(shù)據(jù)量非常大。時(shí)空數(shù)據(jù)來(lái)自眾多數(shù)據(jù)源,且數(shù)據(jù)多樣、異構(gòu)。
定位數(shù)據(jù)
移動(dòng)互聯(lián)網(wǎng)時(shí)代定位是基礎(chǔ)服務(wù)。外賣(mài)、打車(chē)、購(gòu)物,甚至視頻等APP都需要通過(guò)定位提供相應(yīng)服務(wù)。比如說(shuō)墨跡天氣會(huì)根據(jù)位置顯示天氣;視頻根據(jù)位置去推薦一些相關(guān)視頻。
定位類(lèi)型多樣,包括衛(wèi)星、基站、Wifi以及地磁等?;谛l(wèi)星的定位,典型的是GPS定位,其優(yōu)點(diǎn)是精度高,缺點(diǎn)是被高樓遮擋或處于室內(nèi)時(shí),定位精度較差。所以手機(jī)APP一般不直接使用GPS定位,而是使用綜合的網(wǎng)絡(luò)定位。
百度地圖基于這些定位能力,開(kāi)發(fā)綜合的網(wǎng)絡(luò)定位服務(wù),通過(guò)SDK為開(kāi)發(fā)者提供定位服務(wù)。定位及高精度定位技術(shù)難度大,門(mén)檻相對(duì)也較高。
主要從三個(gè)層面提供定位服務(wù):
APP層面:通過(guò)SDK對(duì)外提供定位服務(wù)
設(shè)備層面:提供系統(tǒng)級(jí)別定位
芯片層面
短期的定位可以反映人流的聚集和熱力。如左圖是北京某個(gè)時(shí)間的熱力圖,可以清晰區(qū)分人流量多少的區(qū)域,右圖是南京東站一天的熱力變化,可以看到從0點(diǎn)開(kāi)始有人聚集,12點(diǎn)人最多,下午人又變少,定位數(shù)據(jù)可以非常直觀地反映人流量的變化。
出行OD
基于用戶(hù)每天900億次的定位軌跡數(shù)據(jù),可以挖掘其出行OD,針對(duì)長(zhǎng)距離的跨城出行,我們做了百度遷徙,對(duì)應(yīng)下圖左邊第一個(gè)圖,中間的圖是鄭州和周邊地區(qū)的出行OD,右邊圖是青島某個(gè)交通小區(qū)的出行OD。
人口常駐
基于用戶(hù)的長(zhǎng)期位置和POI(興趣點(diǎn),Point of Interest)等相關(guān)數(shù)據(jù),挖掘全國(guó)超過(guò)13億的常駐人口數(shù)據(jù)。
用戶(hù)畫(huà)像
從人的自然屬性、社會(huì)屬性等不同方面360度刻畫(huà)產(chǎn)出超過(guò)萬(wàn)級(jí)的標(biāo)簽。
POI數(shù)據(jù)
POI能夠反映一個(gè)區(qū)域的經(jīng)濟(jì)發(fā)展水平和活力等。比如,下圖中左邊是北京二環(huán)和五環(huán)區(qū)域內(nèi)餐飲類(lèi)的POI,對(duì)比發(fā)現(xiàn):二環(huán)的POI明顯高于五環(huán),說(shuō)明POI的分布可以反映區(qū)域的競(jìng)爭(zhēng)業(yè)態(tài),右邊四利用POI和人的活動(dòng)模式挖掘的功能區(qū),POI很大程度上可以刻畫(huà)空間承載的功能。
路況大數(shù)據(jù)
路況可以清晰地反映路網(wǎng)的運(yùn)行狀態(tài),比如在什么時(shí)間哪里最堵。路況數(shù)據(jù)的挖掘是基于公眾數(shù)據(jù)、行業(yè)數(shù)據(jù)、卡口流量視頻等利用AI技術(shù)挖掘得到。路況目前已經(jīng)覆蓋全國(guó)400多個(gè)城市,市內(nèi)和城際道路覆蓋超過(guò)99%。
▍時(shí)空大數(shù)據(jù)的應(yīng)用
城市地理理解
首先,基于地圖時(shí)空大數(shù)據(jù),從不同的空間粒度進(jìn)行建模,產(chǎn)出不同空間層次上的地理特征??臻g層次依次從宏觀到中觀再到微觀。
宏觀層面:基于百度遷徙和常駐人口流動(dòng)數(shù)據(jù)識(shí)別城市群,評(píng)價(jià)城市重要性。
中觀層面:基于定位數(shù)據(jù),對(duì)城市副中心發(fā)展績(jī)效進(jìn)行評(píng)估,同時(shí)基于全景圖對(duì)街道品質(zhì)進(jìn)行評(píng)價(jià)。
微觀層面:基于地塊粒度,進(jìn)行城市功能區(qū)的發(fā)現(xiàn)。
功能區(qū)的挖掘動(dòng)機(jī)和挑戰(zhàn)
城市規(guī)劃周期一般在5到10年左右,規(guī)劃之前往往需要了解現(xiàn)狀、規(guī)劃后的效果、如何跟蹤等問(wèn)題,傳統(tǒng)手段時(shí)間較長(zhǎng),效率不高?;?a href="/user/26045834" target="_blank" class="keylink">百度地圖POI、人口以及人的活動(dòng)數(shù)據(jù)進(jìn)行城市用地功能的識(shí)別,可以在短時(shí)間內(nèi)識(shí)別全國(guó)各個(gè)城市的用地功能。
地理空間中的POI可以反映一個(gè)區(qū)域承載的功能,如反映某區(qū)域承載的是科研教育功能,不同的功能區(qū)人的活動(dòng)模式也有差異,比如說(shuō)下圖,在工作日人們一般九點(diǎn)離家,下午五六點(diǎn)回家,POI和人的活動(dòng)模式存在潛在語(yǔ)義信息。
但在挖掘過(guò)程中也存在很大的挑戰(zhàn):
模型方面,整體來(lái)說(shuō)樣本數(shù)據(jù)少、獲取困難,分類(lèi)問(wèn)題轉(zhuǎn)化為無(wú)監(jiān)督模型;
特征方面,存在差異。對(duì)于POI類(lèi)別不均衡的問(wèn)題,比如餐飲類(lèi)POI較多,而景區(qū)內(nèi)POI較少;同類(lèi)POI重要性不同,比如上圖中黃燜雞和全聚德屬于同一區(qū)域,但是其重要性有很大不同。
在特征設(shè)計(jì)上,首先,利用路網(wǎng)數(shù)據(jù)將城市切分成一個(gè)個(gè)地塊,然后以地塊為單位進(jìn)行特征提取,利用tf-idf計(jì)算不同類(lèi)POI重要性,如可以降低餐飲類(lèi)POI的重要性,然后提升景區(qū)類(lèi)POI的重要性。 對(duì)于同類(lèi)POI重要性不一致的問(wèn)題,可以利用POI在地圖上搜索熱度解決。這樣每個(gè)區(qū)域就對(duì)應(yīng)一個(gè)各類(lèi)POI重要性的向量。
其次,活動(dòng)模式特征設(shè)計(jì),將人的一次出行定義為出發(fā)目的地以及出發(fā)到達(dá)時(shí)間,區(qū)域間的聯(lián)系及時(shí)間就構(gòu)成文檔中的單詞。
在模型設(shè)計(jì)上,第一,問(wèn)題轉(zhuǎn)化。
將區(qū)域類(lèi)比成文檔,區(qū)域承載的功能就類(lèi)比成了文檔的主題,活動(dòng)模式就類(lèi)比成了單詞,然后區(qū)域POI重要性轉(zhuǎn)化為文檔元信息。
第二,主題發(fā)現(xiàn),地塊語(yǔ)義標(biāo)注。
基于地塊的Poi vector和活動(dòng)模式,利用改進(jìn)的LDA算法進(jìn)行區(qū)域功能發(fā)現(xiàn),然后進(jìn)行主題聚類(lèi),基于地塊各類(lèi)POI重要性排行進(jìn)行語(yǔ)義標(biāo)注,最后得到最終挖掘結(jié)果圖。
通過(guò)評(píng)估應(yīng)用發(fā)現(xiàn),第一,實(shí)際調(diào)研,其準(zhǔn)確率為87%。
第二,專(zhuān)家知識(shí)。對(duì)寧波市進(jìn)行功能區(qū)發(fā)現(xiàn),并與寧波規(guī)劃院一些專(zhuān)家確認(rèn)其準(zhǔn)確率較高,結(jié)果超過(guò)85%。
第三,規(guī)劃現(xiàn)狀。對(duì)比規(guī)劃現(xiàn)狀,發(fā)現(xiàn)符合預(yù)期。
下圖右上角統(tǒng)計(jì)了每種類(lèi)型的功能區(qū)各類(lèi)POI的占比,發(fā)現(xiàn)居住、商業(yè)、商務(wù)用地對(duì)應(yīng)的POI類(lèi)別前三名一致:均為公司、住宅和商業(yè)。說(shuō)明居住、商業(yè)以及商務(wù)這三類(lèi)POI相關(guān)性較強(qiáng),土地混合利用的情況較為突出。
在評(píng)價(jià)土地混合度上,可以使用信息熵度量用地混合度。上圖左下角是地塊信息熵的分布,從圖上可以看出,北京市中心城區(qū)的用地混合度成偏態(tài)分布。
由此說(shuō)明,土地利用混合度有規(guī)律可循,進(jìn)而可以對(duì)土地利用混合度進(jìn)行建模。
在用地混合度空間分布上表現(xiàn)為:
用地混合度向外逐漸呈衰減趨勢(shì),大致呈同心圈層形態(tài)
用地混合度的空間分布呈現(xiàn)單中心結(jié)構(gòu)
距離城市中心越遠(yuǎn),用地混合度越低
在用地混合度建模上表現(xiàn)為:
發(fā)現(xiàn)用地混合度和距離的關(guān)系,符合冪指數(shù)衰減模型
對(duì)冪指數(shù)兩邊取對(duì)數(shù),得到線(xiàn)性回歸模型
對(duì)地塊的混合度和地塊離中心距離進(jìn)行線(xiàn)性回歸分析,發(fā)現(xiàn)城郊用地混合度波動(dòng)較大,這是由于城郊存在副中心城市和衛(wèi)星城鎮(zhèn),整體上呈組團(tuán)式布局,使用地混合度的空間布局不均勻?qū)е?/p>
如下圖所示,通過(guò)segnet/unet全卷積神經(jīng)網(wǎng)絡(luò),將圖片分割成路面、天空、樹(shù)木、建筑等十余個(gè)類(lèi)別,再通過(guò)地理模型和機(jī)器學(xué)習(xí)算法挖掘街景的特征及其空間分布規(guī)律。
首先使用算法對(duì)全景圖進(jìn)行語(yǔ)義分割,上圖是語(yǔ)義分割的結(jié)果,顯示出每類(lèi)要素的占比,然后利用熱點(diǎn)識(shí)別算法進(jìn)行整體的意向提取,利用非監(jiān)督的聚類(lèi)算法對(duì)街道特征分析。結(jié)果分析如下:
通過(guò)聚類(lèi)分析根據(jù)每條道路上各類(lèi)景觀要素的占比進(jìn)行聚類(lèi),將道路分為:
交通主導(dǎo)型
建筑密集型
景觀空曠型
要素均衡型
綠化優(yōu)良型
綠樹(shù)成蔭型
城市群的發(fā)現(xiàn)首先需要對(duì)人口遷徙數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)人口遷徙呈現(xiàn)不均衡現(xiàn)象,且胡煥庸線(xiàn)以西的人口遷徙規(guī)模和密度明顯低于以東地區(qū)。
其中通過(guò)對(duì)各省份的遷徙數(shù)據(jù)分析發(fā)現(xiàn),各省份的人口吞吐量極不均衡;既有廣東、江蘇、河北等人口流動(dòng)大省,也有福建、甘肅、寧夏等遷徙規(guī)模較小的省份;空間上鄰近的省份,短期人口的流動(dòng)強(qiáng)度相對(duì)比較大;遷徙規(guī)模的大小既與該省份的人口基數(shù)相關(guān),與該省份的空間區(qū)位、經(jīng)濟(jì)建設(shè)水平、區(qū)域發(fā)展態(tài)勢(shì)等均有關(guān)聯(lián)。
另外,關(guān)于城市群劃定原則有以下幾點(diǎn):
城市間的聯(lián)系強(qiáng)度足夠大
城市群內(nèi)各城市須在空間上鄰近
城市群內(nèi)各城市不一定在空間上直接接壤
在進(jìn)行城市群挖掘時(shí),能夠基于人口遷徙數(shù)據(jù),利用k殼分解算法進(jìn)行挖掘。
基于人口遷徙和常駐人口流動(dòng)數(shù)據(jù),利用PageRank算法挖掘。結(jié)果顯示:北京、上海、廣州、深圳和成都是短期人口流動(dòng)中的關(guān)鍵節(jié)點(diǎn);東部沿海地區(qū)上短期人口流動(dòng)呈現(xiàn)“帶狀均衡”模式;中西部地區(qū)的短期人口流動(dòng)呈現(xiàn)“節(jié)點(diǎn)帶動(dòng)”模式。
城市人口理解
城市人口理解,基于地圖出行位置大數(shù)據(jù),挖掘人口在不同時(shí)間跨度下的個(gè)體和群體特征。針對(duì)人口瞬時(shí)流動(dòng)我們做了人流量預(yù)測(cè),針對(duì)人們的短期出行我們做了通勤和市內(nèi)OD挖掘、跨城遷徙挖掘,基于人的長(zhǎng)期位置信息我們做了常駐人口挖掘。
在人流量預(yù)測(cè)上,我們知道每隔幾年都會(huì)發(fā)生一些踩踏事故,如果能提前知道熱門(mén)區(qū)域的人流量,就可以避免踩踏等類(lèi)似事情的發(fā)生,同時(shí)人流量預(yù)測(cè)在公共安全和交通管理領(lǐng)域都是非常重要的。但是預(yù)測(cè)人流量也存在著問(wèn)題和挑戰(zhàn):特征表達(dá)方面,時(shí)間和空間特性、異常因素方面挑戰(zhàn),比如天氣、節(jié)假日等原因;模型方面,傳統(tǒng)時(shí)序模型很難對(duì)時(shí)空特性和異常建模。
在模型設(shè)計(jì)上,對(duì)于人流量的預(yù)測(cè)可以將其轉(zhuǎn)化為圖像領(lǐng)域的問(wèn)題來(lái)解決。
在解決時(shí)間特性、異常因素上時(shí),基于2017年定位軌跡、地理屬性和異常因素特征進(jìn)行建模,將城市劃分成網(wǎng)格,將定位數(shù)據(jù)投影到網(wǎng)格,計(jì)算每個(gè)網(wǎng)格的流入和流出人數(shù),同時(shí)考慮POI熱度,也就是將城市就轉(zhuǎn)化成了一張圖。網(wǎng)格就相當(dāng)于圖片中的像素,網(wǎng)格的流入和流出就相當(dāng)于圖片中的通道。人流量空間的相關(guān)性就相當(dāng)于圖片中像素之間的關(guān)系,多個(gè)時(shí)刻的數(shù)據(jù)對(duì)應(yīng)多張圖。如下圖所示:
在將最近幾張圖的數(shù)據(jù),放在上圖中殘差網(wǎng)絡(luò)模型中,模擬時(shí)間的臨近性,同時(shí)將對(duì)應(yīng)時(shí)間的人流量置于中間的網(wǎng)絡(luò)模型中模擬時(shí)間的周期性,最后進(jìn)行網(wǎng)絡(luò)融合,再和外部因素進(jìn)行融合,就得到了整個(gè)網(wǎng)絡(luò)架構(gòu)。
另外,在解決空間相關(guān)性時(shí),使用CNN卷積操作,可以捕捉空間不同距離的相關(guān)性。通過(guò)多層卷積捕捉較遠(yuǎn)區(qū)域的相關(guān)性問(wèn)題,并引入深度殘差網(wǎng)絡(luò),解決網(wǎng)絡(luò)較深訓(xùn)練困難的問(wèn)題。
如下圖所示,在損失分布上,損失在15%以?xún)?nèi)的網(wǎng)格超過(guò)了85%;在預(yù)測(cè)效果評(píng)估上,通過(guò)對(duì)規(guī)律性區(qū)域如回龍觀地鐵站人流量的進(jìn)行預(yù)測(cè),同時(shí)對(duì)突發(fā)場(chǎng)景如今年林俊杰演唱會(huì)人流量預(yù)測(cè),發(fā)現(xiàn)模型的預(yù)測(cè)精度極高。
關(guān)于常駐人口,傳統(tǒng)的全國(guó)人口普查,成本大,更新周期長(zhǎng);基于基站定位數(shù)據(jù)計(jì)算,僅依賴(lài)時(shí)間屬性,數(shù)據(jù)存在badcase,比如互聯(lián)網(wǎng)公司存在加班和三班制人員倒班現(xiàn)象;居住區(qū)也會(huì)有退休人員等。
下面是常駐點(diǎn)挖掘流程:
首先,地圖標(biāo)注用戶(hù)六個(gè)月的定位數(shù)據(jù);
其次,基于定位數(shù)據(jù)識(shí)別停留點(diǎn),去掉路上其他地方噪點(diǎn)。
第三,利用DBSCAN空間聚類(lèi)算法得到簇;
第四,對(duì)簇進(jìn)行特征提取,利用機(jī)器學(xué)習(xí)分類(lèi)的算法挖掘,得到用戶(hù)居住地、工作地以及常去地等信息。
結(jié)果顯示,其分類(lèi)算法的準(zhǔn)確和召回均約為90%。
以下圖為例,青島人口數(shù)據(jù)校核結(jié)果顯示其人口誤差率小于5%,天津人口數(shù)據(jù)校核顯示,其相關(guān)系數(shù)約為0.85,通勤距離相差4%。
有了人口以及人的家和公司數(shù)據(jù),再結(jié)合用戶(hù)畫(huà)像數(shù)據(jù),我們就可以評(píng)估學(xué)校、醫(yī)院等公共設(shè)施的配置,公園綠地的使用效率,任意區(qū)域的職住平衡和出行通勤等。
通勤是交通規(guī)劃里的非常重要內(nèi)容,通勤OD和方式和早晚高峰的擁堵是息息相關(guān)的。下面是通勤挖掘的流程:
上圖左下角圖顯示,騎行和步行主要偏短距離的出行,公交和地鐵主要偏中長(zhǎng)距離的出行,說(shuō)明通勤距離對(duì)用戶(hù)通勤方式的選擇非常重要。
最后,通過(guò)不同的算法,從整體準(zhǔn)確召回率和各通勤方式精確召回率兩個(gè)方面評(píng)估,發(fā)現(xiàn)精確率均在85%左右。
下面看一下各種通勤方式和土地混合度、地鐵站點(diǎn)分布、路網(wǎng)密度之間的關(guān)系。
(圖片說(shuō)明:通勤方式和土地混合度的關(guān)系)
左圖指用地混合度的空間分布情況,顏色越紅表示用地混合度越高;右圖是機(jī)動(dòng)車(chē)通勤空間分布,越紅代表該空間中人采用機(jī)動(dòng)車(chē)通勤比例越高。從圖中可以看出,北京中心城區(qū)土地混合度高的地方機(jī)動(dòng)車(chē)出行就低,用地混合度較低地區(qū)機(jī)動(dòng)車(chē)出行率較高。
(圖片說(shuō)明:通勤方式和地鐵站點(diǎn)分布的關(guān)系,地鐵站點(diǎn)密度越高的地區(qū),地鐵出行比例越高,地鐵對(duì)機(jī)動(dòng)車(chē)交通的壓縮明顯。)
(圖片說(shuō)明:通勤方式和路網(wǎng)密度之間的關(guān)系,路網(wǎng)密度高的地區(qū),機(jī)動(dòng)車(chē)出行的比例相對(duì)較低,慢行交通的比例相對(duì)比較高。)
基于全網(wǎng)用戶(hù)家和公司坐標(biāo)以及通勤方式數(shù)據(jù),可挖掘每個(gè)用戶(hù)的通勤距離和時(shí)間。
下圖所示,通勤距離,平均意義上,城市居民通勤距離人群占比分布呈現(xiàn)長(zhǎng)尾型,即隨著通勤距離的增加,對(duì)應(yīng)的人群占比相應(yīng)減?。唤?0%的城市居民平均單程通勤距離都在10km以?xún)?nèi)。
通勤時(shí)間,平均意義上,城市居民通勤時(shí)間人群占比分布呈現(xiàn)長(zhǎng)尾型,即隨著通勤時(shí)間的增加,對(duì)應(yīng)的人群占比相應(yīng)減?。唤咏?0%的城市居民的平均單程通勤時(shí)間都在50min以?xún)?nèi)。
▍商業(yè)選址案例
商業(yè)選址流程
首先,宏觀區(qū)位選址,包括商圈和聚客點(diǎn)的確定,可使用人口分布、交通動(dòng)線(xiàn)以及居民的成分、品質(zhì)、分布等數(shù)據(jù)進(jìn)行選址。
其次,微觀區(qū)位選址,主要指店鋪具體落位,可通過(guò)樓層品牌組合以及店鋪客流動(dòng)線(xiàn)進(jìn)行選址。
第三,對(duì)等店選擇,主要使用相似性來(lái)選擇對(duì)等店。
銷(xiāo)售評(píng)估
根據(jù)對(duì)等店的到訪頻次和捕獲率進(jìn)行銷(xiāo)售額預(yù)估。
{{item.content}}