亚洲熟妇av一区二区三区,亚洲av中文无码乱人伦在线视色,亚洲人成网站色www,亚洲欧美日韩国产综合在线一区 ,亚洲av之男人的天堂网站

分享
Scan me 分享到微信

百度地圖大數(shù)據(jù)如何賦能商業(yè)選址?

百度地圖大數(shù)據(jù)如何賦能商業(yè)選址?

  人類幾千年的文明催生了城市的發(fā)展,計算機(jī)與復(fù)雜科學(xué)帶給我們新的資源——大數(shù)據(jù)。羅馬非一日建成,人力和時間成本極大,但試想一下,如果有了大數(shù)據(jù),羅馬的建成能夠縮短多少天呢?如今,城市里藏了大量數(shù)據(jù),那么它們到底是什么?又該如何被開采與利用?大數(shù)據(jù)如何輔助商業(yè)選址?

  11月29日的數(shù)據(jù)俠實驗室,百度地圖資深研發(fā)工程師闞長城為大家介紹了如何開發(fā)和利用時空地理大數(shù)據(jù),并結(jié)合百度慧眼的商業(yè)案例,解釋了大數(shù)據(jù)在商業(yè)選址中的應(yīng)用。本文是其演講實錄。

  大家好,我今天的分享主要是以下三個方面:

  ——地理時空大數(shù)據(jù)的介紹

  ——基于時空大數(shù)據(jù)和人工智能技術(shù)在城市規(guī)劃方面所做案例

  ——基于時空大數(shù)據(jù)的商業(yè)選址案例

  ▍地理時空大數(shù)據(jù)

  交通流量、氣象信息、地理信息、手機(jī)信號均是時空數(shù)據(jù)。時空數(shù)據(jù)具有時間和空間屬性,時間屬性主要是指時間的變與不變;空間屬性一方面是指空間的位置,另一方面是指空間的層次和距離。

  現(xiàn)實世界中超過80%的數(shù)據(jù)都與地理位置有關(guān),數(shù)據(jù)量非常大。時空數(shù)據(jù)來自眾多數(shù)據(jù)源,且數(shù)據(jù)多樣、異構(gòu)。

  定位數(shù)據(jù)

  移動互聯(lián)網(wǎng)時代定位是基礎(chǔ)服務(wù)。外賣、打車、購物,甚至視頻等APP都需要通過定位提供相應(yīng)服務(wù)。比如說墨跡天氣會根據(jù)位置顯示天氣;視頻根據(jù)位置去推薦一些相關(guān)視頻。

  定位類型多樣,包括衛(wèi)星、基站、Wifi以及地磁等?;谛l(wèi)星的定位,典型的是GPS定位,其優(yōu)點是精度高,缺點是被高樓遮擋或處于室內(nèi)時,定位精度較差。所以手機(jī)APP一般不直接使用GPS定位,而是使用綜合的網(wǎng)絡(luò)定位。

  百度地圖基于這些定位能力,開發(fā)綜合的網(wǎng)絡(luò)定位服務(wù),通過SDK為開發(fā)者提供定位服務(wù)。定位及高精度定位技術(shù)難度大,門檻相對也較高。

  主要從三個層面提供定位服務(wù):

  APP層面:通過SDK對外提供定位服務(wù)

  設(shè)備層面:提供系統(tǒng)級別定位

  芯片層面

  短期的定位可以反映人流的聚集和熱力。如左圖是北京某個時間的熱力圖,可以清晰區(qū)分人流量多少的區(qū)域,右圖是南京東站一天的熱力變化,可以看到從0點開始有人聚集,12點人最多,下午人又變少,定位數(shù)據(jù)可以非常直觀地反映人流量的變化。

  出行OD

  基于用戶每天900億次的定位軌跡數(shù)據(jù),可以挖掘其出行OD,針對長距離的跨城出行,我們做了百度遷徙,對應(yīng)下圖左邊第一個圖,中間的圖是鄭州和周邊地區(qū)的出行OD,右邊圖是青島某個交通小區(qū)的出行OD。

人口常駐

  基于用戶的長期位置和POI(興趣點,Point of Interest)等相關(guān)數(shù)據(jù),挖掘全國超過13億的常駐人口數(shù)據(jù)。

  用戶畫像

  從人的自然屬性、社會屬性等不同方面360度刻畫產(chǎn)出超過萬級的標(biāo)簽。

  POI數(shù)據(jù)

  POI能夠反映一個區(qū)域的經(jīng)濟(jì)發(fā)展水平和活力等。比如,下圖中左邊是北京二環(huán)和五環(huán)區(qū)域內(nèi)餐飲類的POI,對比發(fā)現(xiàn):二環(huán)的POI明顯高于五環(huán),說明POI的分布可以反映區(qū)域的競爭業(yè)態(tài),右邊四利用POI和人的活動模式挖掘的功能區(qū),POI很大程度上可以刻畫空間承載的功能。

路況大數(shù)據(jù)

  路況可以清晰地反映路網(wǎng)的運行狀態(tài),比如在什么時間哪里最堵。路況數(shù)據(jù)的挖掘是基于公眾數(shù)據(jù)、行業(yè)數(shù)據(jù)、卡口流量視頻等利用AI技術(shù)挖掘得到。路況目前已經(jīng)覆蓋全國400多個城市,市內(nèi)和城際道路覆蓋超過99%。

  ▍時空大數(shù)據(jù)的應(yīng)用

  城市地理理解

  首先,基于地圖時空大數(shù)據(jù),從不同的空間粒度進(jìn)行建模,產(chǎn)出不同空間層次上的地理特征??臻g層次依次從宏觀到中觀再到微觀。

  宏觀層面:基于百度遷徙和常駐人口流動數(shù)據(jù)識別城市群,評價城市重要性。

  中觀層面:基于定位數(shù)據(jù),對城市副中心發(fā)展績效進(jìn)行評估,同時基于全景圖對街道品質(zhì)進(jìn)行評價。

  微觀層面:基于地塊粒度,進(jìn)行城市功能區(qū)的發(fā)現(xiàn)。

  功能區(qū)的挖掘動機(jī)和挑戰(zhàn)

  城市規(guī)劃周期一般在5到10年左右,規(guī)劃之前往往需要了解現(xiàn)狀、規(guī)劃后的效果、如何跟蹤等問題,傳統(tǒng)手段時間較長,效率不高?;?a href="/user/26045834" target="_blank" class="keylink">百度地圖POI、人口以及人的活動數(shù)據(jù)進(jìn)行城市用地功能的識別,可以在短時間內(nèi)識別全國各個城市的用地功能。

  地理空間中的POI可以反映一個區(qū)域承載的功能,如反映某區(qū)域承載的是科研教育功能,不同的功能區(qū)人的活動模式也有差異,比如說下圖,在工作日人們一般九點離家,下午五六點回家,POI和人的活動模式存在潛在語義信息。

但在挖掘過程中也存在很大的挑戰(zhàn):

  模型方面,整體來說樣本數(shù)據(jù)少、獲取困難,分類問題轉(zhuǎn)化為無監(jiān)督模型;

  特征方面,存在差異。對于POI類別不均衡的問題,比如餐飲類POI較多,而景區(qū)內(nèi)POI較少;同類POI重要性不同,比如上圖中黃燜雞和全聚德屬于同一區(qū)域,但是其重要性有很大不同。

  在特征設(shè)計上,首先,利用路網(wǎng)數(shù)據(jù)將城市切分成一個個地塊,然后以地塊為單位進(jìn)行特征提取,利用tf-idf計算不同類POI重要性,如可以降低餐飲類POI的重要性,然后提升景區(qū)類POI的重要性。 對于同類POI重要性不一致的問題,可以利用POI在地圖上搜索熱度解決。這樣每個區(qū)域就對應(yīng)一個各類POI重要性的向量。

  其次,活動模式特征設(shè)計,將人的一次出行定義為出發(fā)目的地以及出發(fā)到達(dá)時間,區(qū)域間的聯(lián)系及時間就構(gòu)成文檔中的單詞。

  在模型設(shè)計上,第一,問題轉(zhuǎn)化。

  將區(qū)域類比成文檔,區(qū)域承載的功能就類比成了文檔的主題,活動模式就類比成了單詞,然后區(qū)域POI重要性轉(zhuǎn)化為文檔元信息。

  第二,主題發(fā)現(xiàn),地塊語義標(biāo)注。

  基于地塊的Poi vector和活動模式,利用改進(jìn)的LDA算法進(jìn)行區(qū)域功能發(fā)現(xiàn),然后進(jìn)行主題聚類,基于地塊各類POI重要性排行進(jìn)行語義標(biāo)注,最后得到最終挖掘結(jié)果圖。

  通過評估應(yīng)用發(fā)現(xiàn),第一,實際調(diào)研,其準(zhǔn)確率為87%。

  第二,專家知識。對寧波市進(jìn)行功能區(qū)發(fā)現(xiàn),并與寧波規(guī)劃院一些專家確認(rèn)其準(zhǔn)確率較高,結(jié)果超過85%。

  第三,規(guī)劃現(xiàn)狀。對比規(guī)劃現(xiàn)狀,發(fā)現(xiàn)符合預(yù)期。

  下圖右上角統(tǒng)計了每種類型的功能區(qū)各類POI的占比,發(fā)現(xiàn)居住、商業(yè)、商務(wù)用地對應(yīng)的POI類別前三名一致:均為公司、住宅和商業(yè)。說明居住、商業(yè)以及商務(wù)這三類POI相關(guān)性較強,土地混合利用的情況較為突出。

  在評價土地混合度上,可以使用信息熵度量用地混合度。上圖左下角是地塊信息熵的分布,從圖上可以看出,北京市中心城區(qū)的用地混合度成偏態(tài)分布。

  由此說明,土地利用混合度有規(guī)律可循,進(jìn)而可以對土地利用混合度進(jìn)行建模。

在用地混合度空間分布上表現(xiàn)為:

  用地混合度向外逐漸呈衰減趨勢,大致呈同心圈層形態(tài)

  用地混合度的空間分布呈現(xiàn)單中心結(jié)構(gòu)

  距離城市中心越遠(yuǎn),用地混合度越低

  在用地混合度建模上表現(xiàn)為:

  發(fā)現(xiàn)用地混合度和距離的關(guān)系,符合冪指數(shù)衰減模型

  對冪指數(shù)兩邊取對數(shù),得到線性回歸模型

  對地塊的混合度和地塊離中心距離進(jìn)行線性回歸分析,發(fā)現(xiàn)城郊用地混合度波動較大,這是由于城郊存在副中心城市和衛(wèi)星城鎮(zhèn),整體上呈組團(tuán)式布局,使用地混合度的空間布局不均勻?qū)е?/p>

  如下圖所示,通過segnet/unet全卷積神經(jīng)網(wǎng)絡(luò),將圖片分割成路面、天空、樹木、建筑等十余個類別,再通過地理模型和機(jī)器學(xué)習(xí)算法挖掘街景的特征及其空間分布規(guī)律。

  首先使用算法對全景圖進(jìn)行語義分割,上圖是語義分割的結(jié)果,顯示出每類要素的占比,然后利用熱點識別算法進(jìn)行整體的意向提取,利用非監(jiān)督的聚類算法對街道特征分析。結(jié)果分析如下:

  通過聚類分析根據(jù)每條道路上各類景觀要素的占比進(jìn)行聚類,將道路分為:

  交通主導(dǎo)型

  建筑密集型

  景觀空曠型

  要素均衡型

  綠化優(yōu)良型

  綠樹成蔭型

  城市群的發(fā)現(xiàn)首先需要對人口遷徙數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)人口遷徙呈現(xiàn)不均衡現(xiàn)象,且胡煥庸線以西的人口遷徙規(guī)模和密度明顯低于以東地區(qū)。

  其中通過對各省份的遷徙數(shù)據(jù)分析發(fā)現(xiàn),各省份的人口吞吐量極不均衡;既有廣東、江蘇、河北等人口流動大省,也有福建、甘肅、寧夏等遷徙規(guī)模較小的省份;空間上鄰近的省份,短期人口的流動強度相對比較大;遷徙規(guī)模的大小既與該省份的人口基數(shù)相關(guān),與該省份的空間區(qū)位、經(jīng)濟(jì)建設(shè)水平、區(qū)域發(fā)展態(tài)勢等均有關(guān)聯(lián)。

另外,關(guān)于城市群劃定原則有以下幾點:

  城市間的聯(lián)系強度足夠大

  城市群內(nèi)各城市須在空間上鄰近

  城市群內(nèi)各城市不一定在空間上直接接壤

  在進(jìn)行城市群挖掘時,能夠基于人口遷徙數(shù)據(jù),利用k殼分解算法進(jìn)行挖掘。

  基于人口遷徙和常駐人口流動數(shù)據(jù),利用PageRank算法挖掘。結(jié)果顯示:北京、上海、廣州、深圳和成都是短期人口流動中的關(guān)鍵節(jié)點;東部沿海地區(qū)上短期人口流動呈現(xiàn)“帶狀均衡”模式;中西部地區(qū)的短期人口流動呈現(xiàn)“節(jié)點帶動”模式。

  城市人口理解

  城市人口理解,基于地圖出行位置大數(shù)據(jù),挖掘人口在不同時間跨度下的個體和群體特征。針對人口瞬時流動我們做了人流量預(yù)測,針對人們的短期出行我們做了通勤和市內(nèi)OD挖掘、跨城遷徙挖掘,基于人的長期位置信息我們做了常駐人口挖掘。

  在人流量預(yù)測上,我們知道每隔幾年都會發(fā)生一些踩踏事故,如果能提前知道熱門區(qū)域的人流量,就可以避免踩踏等類似事情的發(fā)生,同時人流量預(yù)測在公共安全和交通管理領(lǐng)域都是非常重要的。但是預(yù)測人流量也存在著問題和挑戰(zhàn):特征表達(dá)方面,時間和空間特性、異常因素方面挑戰(zhàn),比如天氣、節(jié)假日等原因;模型方面,傳統(tǒng)時序模型很難對時空特性和異常建模。

  在模型設(shè)計上,對于人流量的預(yù)測可以將其轉(zhuǎn)化為圖像領(lǐng)域的問題來解決。

  在解決時間特性、異常因素上時,基于2017年定位軌跡、地理屬性和異常因素特征進(jìn)行建模,將城市劃分成網(wǎng)格,將定位數(shù)據(jù)投影到網(wǎng)格,計算每個網(wǎng)格的流入和流出人數(shù),同時考慮POI熱度,也就是將城市就轉(zhuǎn)化成了一張圖。網(wǎng)格就相當(dāng)于圖片中的像素,網(wǎng)格的流入和流出就相當(dāng)于圖片中的通道。人流量空間的相關(guān)性就相當(dāng)于圖片中像素之間的關(guān)系,多個時刻的數(shù)據(jù)對應(yīng)多張圖。如下圖所示:

  在將最近幾張圖的數(shù)據(jù),放在上圖中殘差網(wǎng)絡(luò)模型中,模擬時間的臨近性,同時將對應(yīng)時間的人流量置于中間的網(wǎng)絡(luò)模型中模擬時間的周期性,最后進(jìn)行網(wǎng)絡(luò)融合,再和外部因素進(jìn)行融合,就得到了整個網(wǎng)絡(luò)架構(gòu)。

  另外,在解決空間相關(guān)性時,使用CNN卷積操作,可以捕捉空間不同距離的相關(guān)性。通過多層卷積捕捉較遠(yuǎn)區(qū)域的相關(guān)性問題,并引入深度殘差網(wǎng)絡(luò),解決網(wǎng)絡(luò)較深訓(xùn)練困難的問題。

  如下圖所示,在損失分布上,損失在15%以內(nèi)的網(wǎng)格超過了85%;在預(yù)測效果評估上,通過對規(guī)律性區(qū)域如回龍觀地鐵站人流量的進(jìn)行預(yù)測,同時對突發(fā)場景如今年林俊杰演唱會人流量預(yù)測,發(fā)現(xiàn)模型的預(yù)測精度極高。

  關(guān)于常駐人口,傳統(tǒng)的全國人口普查,成本大,更新周期長;基于基站定位數(shù)據(jù)計算,僅依賴時間屬性,數(shù)據(jù)存在badcase,比如互聯(lián)網(wǎng)公司存在加班和三班制人員倒班現(xiàn)象;居住區(qū)也會有退休人員等。

  下面是常駐點挖掘流程:

  首先,地圖標(biāo)注用戶六個月的定位數(shù)據(jù);

  其次,基于定位數(shù)據(jù)識別停留點,去掉路上其他地方噪點。

  第三,利用DBSCAN空間聚類算法得到簇;

  第四,對簇進(jìn)行特征提取,利用機(jī)器學(xué)習(xí)分類的算法挖掘,得到用戶居住地、工作地以及常去地等信息。

  結(jié)果顯示,其分類算法的準(zhǔn)確和召回均約為90%。

  以下圖為例,青島人口數(shù)據(jù)校核結(jié)果顯示其人口誤差率小于5%,天津人口數(shù)據(jù)校核顯示,其相關(guān)系數(shù)約為0.85,通勤距離相差4%。

  有了人口以及人的家和公司數(shù)據(jù),再結(jié)合用戶畫像數(shù)據(jù),我們就可以評估學(xué)校、醫(yī)院等公共設(shè)施的配置,公園綠地的使用效率,任意區(qū)域的職住平衡和出行通勤等。

  通勤是交通規(guī)劃里的非常重要內(nèi)容,通勤OD和方式和早晚高峰的擁堵是息息相關(guān)的。下面是通勤挖掘的流程:

  上圖左下角圖顯示,騎行和步行主要偏短距離的出行,公交和地鐵主要偏中長距離的出行,說明通勤距離對用戶通勤方式的選擇非常重要。

  最后,通過不同的算法,從整體準(zhǔn)確召回率和各通勤方式精確召回率兩個方面評估,發(fā)現(xiàn)精確率均在85%左右。

  下面看一下各種通勤方式和土地混合度、地鐵站點分布、路網(wǎng)密度之間的關(guān)系。

(圖片說明:通勤方式和土地混合度的關(guān)系)

  左圖指用地混合度的空間分布情況,顏色越紅表示用地混合度越高;右圖是機(jī)動車通勤空間分布,越紅代表該空間中人采用機(jī)動車通勤比例越高。從圖中可以看出,北京中心城區(qū)土地混合度高的地方機(jī)動車出行就低,用地混合度較低地區(qū)機(jī)動車出行率較高。

  (圖片說明:通勤方式和地鐵站點分布的關(guān)系,地鐵站點密度越高的地區(qū),地鐵出行比例越高,地鐵對機(jī)動車交通的壓縮明顯。)

 ?。▓D片說明:通勤方式和路網(wǎng)密度之間的關(guān)系,路網(wǎng)密度高的地區(qū),機(jī)動車出行的比例相對較低,慢行交通的比例相對比較高。)

  基于全網(wǎng)用戶家和公司坐標(biāo)以及通勤方式數(shù)據(jù),可挖掘每個用戶的通勤距離和時間。

  下圖所示,通勤距離,平均意義上,城市居民通勤距離人群占比分布呈現(xiàn)長尾型,即隨著通勤距離的增加,對應(yīng)的人群占比相應(yīng)減?。唤?0%的城市居民平均單程通勤距離都在10km以內(nèi)。

  通勤時間,平均意義上,城市居民通勤時間人群占比分布呈現(xiàn)長尾型,即隨著通勤時間的增加,對應(yīng)的人群占比相應(yīng)減?。唤咏?0%的城市居民的平均單程通勤時間都在50min以內(nèi)。

▍商業(yè)選址案例

  商業(yè)選址流程

  首先,宏觀區(qū)位選址,包括商圈和聚客點的確定,可使用人口分布、交通動線以及居民的成分、品質(zhì)、分布等數(shù)據(jù)進(jìn)行選址。

  其次,微觀區(qū)位選址,主要指店鋪具體落位,可通過樓層品牌組合以及店鋪客流動線進(jìn)行選址。

  第三,對等店選擇,主要使用相似性來選擇對等店。

銷售評估

  根據(jù)對等店的到訪頻次和捕獲率進(jìn)行銷售額預(yù)估。

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦

下一篇

改革開放四十年大事記