亚洲熟妇av一区二区三区,亚洲av中文无码乱人伦在线视色,亚洲人成网站色www,亚洲欧美日韩国产综合在线一区 ,亚洲av之男人的天堂网站

分享
Scan me 分享到微信

吳海山:百度時(shí)空大數(shù)據(jù)的挖掘與應(yīng)用

  6月10日,北京國(guó)家會(huì)議中心,以構(gòu)筑地理信息新生態(tài)為主題的2015年全球地理信息開(kāi)發(fā)者大會(huì) (WGDC)在此拉開(kāi)帷幕。WGDC自2012年起開(kāi)始舉辦,四年時(shí)間里,伴隨著中國(guó)地理信息產(chǎn)業(yè)的快速發(fā)展,WGDC已經(jīng)成為位置與

  6月10日,北京國(guó)家會(huì)議中心,以“構(gòu)筑地理信息新生態(tài)”為主題的2015年全球地理信息開(kāi)發(fā)者大會(huì) (WGDC)在此拉開(kāi)帷幕。WGDC自2012年起開(kāi)始舉辦,四年時(shí)間里,伴隨著中國(guó)地理信息產(chǎn)業(yè)的快速發(fā)展,WGDC已經(jīng)成為位置與空間領(lǐng)域最具影響力的技術(shù)創(chuàng)新盛會(huì)。

  6月11日,地理信息開(kāi)發(fā)者大會(huì)智慧城市分論壇開(kāi)幕,會(huì)上百度研究院大數(shù)據(jù)實(shí)驗(yàn)室數(shù)據(jù)科學(xué)家吳海山先生做出了題為“百度時(shí)空大數(shù)據(jù)的挖掘與應(yīng)用”的精彩報(bào)告。以下為演講實(shí)錄(未經(jīng)本人確認(rèn))

  吳海山:大家上午好,很高興有這樣一個(gè)機(jī)會(huì)和大家分享一下百度研究院大數(shù)據(jù)實(shí)驗(yàn)室坐的和百度時(shí)空數(shù)據(jù)挖掘的一些研究和進(jìn)展。首先,給大家看一下,時(shí)空大數(shù)據(jù)在百度來(lái)講都有哪些和時(shí)間和空間相關(guān)的數(shù)據(jù)?百度主要是分析和挖掘時(shí)空數(shù)據(jù)的一些研究,首先看一下時(shí)空數(shù)據(jù)就是典型的時(shí)間和空間有關(guān)聯(lián)的數(shù)據(jù)。線(xiàn)上我們有用戶(hù)的一些搜索數(shù)據(jù),然后每天大家可能會(huì)用百度地圖,有每天上億次的百度地圖線(xiàn)上的搜索請(qǐng)求,現(xiàn)在每天超過(guò)150億次的定位的請(qǐng)求。對(duì)于定位的請(qǐng)求,我們可以累計(jì)出來(lái)用戶(hù)時(shí)空和時(shí)間的關(guān)聯(lián)的數(shù)據(jù)。

  這個(gè)數(shù)據(jù)長(zhǎng)什么樣呢?這個(gè)數(shù)據(jù)是我們可視化出來(lái),北京一天24小時(shí)蘋(píng)果手機(jī)用戶(hù)定位數(shù)據(jù)的可視化,大家可以看到,從白天到晚上這樣一個(gè)北京整個(gè)城市蘋(píng)果用戶(hù)的動(dòng)態(tài)的變化。這個(gè)就是在白天的時(shí)候很明顯有一個(gè)趨勢(shì)。另外我們可以單獨(dú)把整個(gè)在全國(guó)范圍內(nèi)用iPhone6的一些土豪的用戶(hù),在全國(guó)的分布大概是什么樣的,這個(gè)展示了一下整個(gè)中國(guó),現(xiàn)在我們發(fā)現(xiàn)有將近2000多萬(wàn)iPhone6的用戶(hù),他們分布大概是這個(gè)樣子。這個(gè)很明顯能夠看出來(lái),因?yàn)閕Phone是一個(gè)土豪的代表,所以和經(jīng)濟(jì)關(guān)聯(lián),直接看起來(lái)有一些明顯的特征,比如像江浙、廣東這塊區(qū)域,人用的比較多一些。具體的聯(lián)系是什么樣的?我們做了iPhone6的用戶(hù)和GDP的關(guān)聯(lián),對(duì)大多數(shù)的省市呈非常好的線(xiàn)性的關(guān)系,這個(gè)iPhone6可以作為用戶(hù)購(gòu)買(mǎi)力一個(gè)很好的屬性看地方經(jīng)濟(jì)的發(fā)展。

  剛才只說(shuō)了一個(gè)全國(guó)的iPhone用戶(hù)的,iPhone用戶(hù)和Android用戶(hù)的對(duì)比大概是什么樣的?我們把北京蘋(píng)果的用戶(hù)和Android用戶(hù)做了這樣一個(gè)對(duì)比的分析,很明顯看出來(lái),對(duì)于市中心區(qū)域,郊區(qū)用Android的比較多,市中心用iPhone的比較多一些。這個(gè)圖是衛(wèi)星的一個(gè)夜光圖,他們覺(jué)得可以反映經(jīng)濟(jì)的發(fā)展,比較暗的是北朝鮮,對(duì)應(yīng)的是南朝鮮,北朝鮮和南朝鮮,他們?cè)谛l(wèi)星云圖上的光亮有非常大的差異。是不是可以用夜光的圖看地方經(jīng)濟(jì)的發(fā)展呢?衛(wèi)星的云圖有很多的問(wèn)題,比如這個(gè)地方的燈光,可能在衛(wèi)星云圖上產(chǎn)生不飽和的現(xiàn)象,我們用百度的數(shù)據(jù)看這樣一個(gè)結(jié)果。我們把春節(jié)除夕晚上一天,所有在百度地圖上產(chǎn)生定位的人用戶(hù)的點(diǎn),放在地圖上,我們沒(méi)有做任何下面的渲染,這些定位的點(diǎn)可以很明顯的看出來(lái),整個(gè)中國(guó)空間上的分布趨勢(shì)。

  具體細(xì)節(jié)是什么樣呢?比如山東的某一塊區(qū)域在除夕晚上定位的結(jié)果的分布,很明顯看出來(lái),這個(gè)數(shù)據(jù)也是僅僅把定位的點(diǎn)打上去之后,在經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū),像上海、江浙,甚至像鄭州點(diǎn)特別亮,因?yàn)槭浅?,像山東、河南外出打工的比較多,但是春節(jié)的時(shí)候會(huì)回家,所以山東的時(shí)候很多小點(diǎn)變得特別亮,可能是返城務(wù)工的一些人。

  看一下這個(gè)數(shù)據(jù)和中國(guó)經(jīng)濟(jì)的關(guān)聯(lián),有這樣一個(gè)數(shù)據(jù),可以看到這個(gè)人每天在什么地方工作,去什么地方出差,或者去什么地方旅游,或者是不是換了一個(gè)工作,從北京到上海,根據(jù)這樣的數(shù)據(jù),我們建了整個(gè)中國(guó)的城市網(wǎng)絡(luò),大家可能知道,百度網(wǎng)頁(yè)排序有一個(gè)算法,叫PageRank算法,比如一個(gè)人從北京到上海的出行,我們認(rèn)為它是產(chǎn)生關(guān)聯(lián),根據(jù)這樣一個(gè)分析,可以把整個(gè)中國(guó)城市的Network構(gòu)建出來(lái),而且知道每個(gè)城市在網(wǎng)絡(luò)里面的重要性是比較靠前的。底圖是代表我們算出來(lái)的CityRank,這個(gè)PageRank值我們發(fā)現(xiàn)和地方的GDP有更加好的關(guān)聯(lián)性,關(guān)聯(lián)性大概在0.8左右。下面的GDP,橫坐標(biāo)是上面城市網(wǎng)絡(luò)里面的一個(gè)重要的屬性,然后我們覺(jué)得這個(gè)類(lèi)型的值,它在網(wǎng)絡(luò)里面的流動(dòng)性,反映了城市的經(jīng)濟(jì)活力。另外是我們用城市流動(dòng)人口分析了一下城市的“鬼城”,我們?cè)趺礃痈鶕?jù)百度定位數(shù)據(jù)算出來(lái)這個(gè)城市人口凈增量變化的趨勢(shì),判斷這個(gè)城市未來(lái)是不是“鬼城”。

  比如這個(gè)城市,我們把它的凈增人口量做了一個(gè)分析,把累計(jì)凈增量計(jì)算出來(lái)之后,發(fā)現(xiàn)有一個(gè)變化,比如天津的濱海新區(qū),鄭州的新區(qū),所有的“鬼城”區(qū)的人口一直在上升,我們覺(jué)得可能是對(duì)比如房地產(chǎn)有意思的一個(gè)結(jié)果,我們認(rèn)為將來(lái)如果凈增率下降,將來(lái)問(wèn)題可能出的比較多一些。

  剛才上面一些數(shù)據(jù)怎么樣用百度的數(shù)據(jù)分析一些社會(huì)科學(xué)的研究,主要是比如和地方經(jīng)濟(jì),或者其他一些量化的一些研究。剛才那些研究,我們最近就說(shuō)是想去定義一些經(jīng)濟(jì)的指標(biāo),來(lái)去分析或者借鑒模型預(yù)測(cè),怎么樣用百度的數(shù)據(jù)看能不能預(yù)測(cè)這個(gè)地方,或者整個(gè)省市將來(lái)的經(jīng)濟(jì)的走勢(shì)。除了這個(gè)應(yīng)用之外,還可以把百度數(shù)據(jù)用在其他的用處,比如百度用戶(hù)行為的預(yù)測(cè),也線(xiàn)上的搜索數(shù)據(jù),還有線(xiàn)下的定位數(shù)據(jù),怎么樣預(yù)測(cè)線(xiàn)上線(xiàn)下的行為,最終預(yù)測(cè)你在將來(lái)的出行,這幾個(gè)結(jié)果是比較典型的,我們?cè)诠緝?nèi)部已經(jīng)內(nèi)測(cè),比如娛樂(lè)、休閑、需求,或者購(gòu)物需求,還有旅游需求。

  重點(diǎn)講一下我們分析的旅游的一些結(jié)果。這個(gè)是除夕一天的結(jié)果,分析出來(lái)北京一天旅游人口的分布。紅色代表北京本地人的分布,藍(lán)色的代表我們根據(jù)定位信息分析出來(lái)的外地游客的分布。明顯看出來(lái),外地游客主要集中在天安門(mén)等這樣的景點(diǎn),這兒有一個(gè)是本地人經(jīng)常去的景點(diǎn),有一個(gè)人外地人經(jīng)常去的景點(diǎn),大家推測(cè)一下,哪個(gè)是本地人經(jīng)常去的景點(diǎn)?本地人他們旅游的行為有非常明顯的不同,除了這個(gè)之外,我們還分析了一下,不同手機(jī)型號(hào)用戶(hù)對(duì)旅游經(jīng)典有沒(méi)有一些特征偏好,比如看一下Android用戶(hù)和IOS用戶(hù),左邊比如是王府井,后海,還有藝術(shù)中心,還有蠟像館,還有美術(shù)館,其實(shí)左邊是IOS用戶(hù)經(jīng)常光顧的景點(diǎn)。

  根據(jù)用戶(hù)信息,他的一些使用偏好,他的設(shè)備等我們可以做一個(gè)更加智能化的中國(guó)去哪兒的信息,比如你家住什么地方,在什么地方工作,經(jīng)常去什么地方,你的消費(fèi)能力是什么樣的,根據(jù)所有的信息做更好的個(gè)性化旅游的推薦,這個(gè)就是我們根據(jù)之前分析的結(jié)果做的一個(gè)DEMO。我們這個(gè)能夠自動(dòng)檢測(cè)出來(lái)比如外來(lái)游客來(lái)北京旅游,我們可以根據(jù)你出行的信息,給你做一個(gè)推薦,比如從天安門(mén)開(kāi)始,還可以對(duì)北京游客做這樣一個(gè)旅游的推薦,有這樣一個(gè)推薦,大家在周末出去玩,可能不會(huì)出現(xiàn)選擇恐懼癥的情況。

  另外一個(gè)預(yù)測(cè),我們是根據(jù)用戶(hù)線(xiàn)上線(xiàn)下的行為做用戶(hù)的O2O的行為預(yù)測(cè)。大家可能經(jīng)常會(huì)用手機(jī)的百度地圖,你在百度地圖搜了一個(gè)地點(diǎn)之后,我們會(huì)根據(jù)你將以前出行的信息和你在線(xiàn)上其他的搜索信息預(yù)測(cè)你搜完這個(gè)位置之后,是不是會(huì)去,什么時(shí)候會(huì)去。比如你下次用百度地圖的時(shí)候,搜這個(gè)地點(diǎn)的時(shí)候,比如搜這個(gè)餐館,預(yù)測(cè)你接下來(lái)一兩個(gè)小時(shí)會(huì)到達(dá),在這一兩個(gè)小時(shí)之間,會(huì)提前打通你線(xiàn)上和線(xiàn)下的服務(wù),比如到海底撈,是不是可以先替你點(diǎn)單,安排停車(chē)位的服務(wù)。我們提出的模型,可以把準(zhǔn)確度提升。

  這個(gè)是用戶(hù)、位置和服務(wù)的關(guān)聯(lián),比如對(duì)星巴克、海底撈的用戶(hù),比如對(duì)星巴克可能是周一到周五大家去的概率更高一些,對(duì)于海底撈這樣的店,周五、周六的比例遠(yuǎn)遠(yuǎn)高于星巴克。除了空間上的分布,我們發(fā)現(xiàn)用戶(hù)對(duì)不同的地點(diǎn),他們對(duì)距離的容忍度也是不一樣的,比如對(duì)星巴克,會(huì)選擇相對(duì)比較近的,對(duì)海底撈大家可能一般會(huì)做提前的一個(gè)規(guī)劃。根據(jù)這樣一個(gè)結(jié)果,我們可以看用戶(hù)不同地點(diǎn)服務(wù)時(shí)間等的分布,這個(gè)是可以看出哪些人對(duì)海底撈吃飯有需求,根據(jù)這樣的結(jié)果,我們首先建立一個(gè)模型,分析每個(gè)現(xiàn)有的海底撈的店,根據(jù)用戶(hù)對(duì)距離的容忍,分析出來(lái)每個(gè)店猛攻覆蓋的范圍大概是什么樣的。如果把能夠覆蓋的范圍去掉,剩下的是現(xiàn)在沒(méi)有滿(mǎn)足的一些需求,但是這塊人有很強(qiáng)的海底撈的需求,但是附近方圓幾里之內(nèi)沒(méi)有任何一個(gè)海底撈。

  根據(jù)這樣一個(gè)結(jié)果,怎么樣把沒(méi)有滿(mǎn)足的需求,找到這些點(diǎn),比如這個(gè)就是我們根據(jù)一些沒(méi)有滿(mǎn)足的需求,把這些需求檢測(cè)出來(lái),然后我們把這些需求再用一些算法去捉到一些侯選的位置,我們認(rèn)為這塊位置有很強(qiáng)的需求,但是當(dāng)?shù)氐牡攸c(diǎn)又沒(méi)有去滿(mǎn)足。我們?cè)俑鶕?jù)其他的一些交通流量,或者交通可達(dá)性?xún)?yōu)化我們的結(jié)果,最后可以得到一個(gè)更好的。為了驗(yàn)證我們這個(gè)結(jié)果,我們現(xiàn)在比如用海底撈的一個(gè)石景山店,紅色的點(diǎn)代表我們這個(gè)算法能夠預(yù)測(cè)大的一個(gè)點(diǎn),其實(shí)橙色的點(diǎn)代表實(shí)際的海底撈分店的位置,這是一個(gè)海底撈的例子。還有像全聚德的例子,結(jié)果也比較好,另外一個(gè)是星巴克的結(jié)果。這是用戶(hù)和位置以及服務(wù)優(yōu)化的結(jié)果。

  除了這個(gè)之外,我們還做了一些智慧城市的研究,怎么樣讓百度數(shù)據(jù)做智能的城市管理和服務(wù),這是我們?cè)谏现茉朴?jì)算大會(huì)上展出的一個(gè)DEMO。第一、智能城市的人口管理,這是去年外灘有一個(gè)踩踏事件,我們根據(jù)百度搜索和百度定位做的一個(gè)分析,我們發(fā)現(xiàn)可以用百度的一些數(shù)據(jù)做一個(gè)提前人口流量的預(yù)測(cè),我們不去預(yù)測(cè)這個(gè)事件會(huì)不會(huì)發(fā)生,但是提前對(duì)人口流量產(chǎn)生很好的預(yù)警。

  我們發(fā)現(xiàn)很有意思的現(xiàn)象,一般的用戶(hù)到訪(fǎng)一個(gè)地點(diǎn)之前,可能會(huì)做路徑規(guī)劃,先用百度地圖搜一下,然后乘坐交通工具到達(dá)這樣一個(gè)地點(diǎn),所以有一個(gè)時(shí)間的提前性。我們把地圖的搜索和人群對(duì)某個(gè)地點(diǎn)具體流量做了相關(guān)性分析,我們發(fā)現(xiàn)搜索流量的高峰會(huì)超前實(shí)際到達(dá)流量高分的0.5到2個(gè)小時(shí)之間,所以我們可以對(duì)這個(gè)最高峰值做一個(gè)預(yù)測(cè),這個(gè)可以分析這塊人實(shí)時(shí)的變化,然后還可以預(yù)測(cè)接下來(lái)一兩個(gè)小時(shí)的人口流量的變化,如果它超出一定的具像,我們可以做出一定的預(yù)警。

  我們把北京劃分成不同的網(wǎng)格,我們看不同網(wǎng)格與網(wǎng)格之中的關(guān)系,我們還可以根據(jù)百度定位數(shù)據(jù)分析出來(lái)這些人上班也好,出行也好,乘坐的交通工具是什么樣的,根據(jù)這個(gè)看出來(lái)北京不同市區(qū)的一個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)圖,比如哪些人住在朝陽(yáng),可能去海淀上班的圖。

  另外,整個(gè)中國(guó)城市網(wǎng)絡(luò)的變化,這個(gè)城市網(wǎng)絡(luò),基于人口流動(dòng)變化,我們分析了一個(gè)動(dòng)態(tài)的城市網(wǎng)絡(luò),下面這個(gè)是我們看這個(gè)城市的人口流動(dòng)的變化。我們接下來(lái)會(huì)把人口的流動(dòng)分成幾類(lèi),比如有一類(lèi)可能是旅游,有一類(lèi)可能是出差,還有一類(lèi)我們發(fā)現(xiàn)比較有意思,也是比較重要的,有多少人是因?yàn)閾Q工作,換了一些不同的地點(diǎn),我們認(rèn)為換工作可能更能影響這個(gè)地方經(jīng)濟(jì)的指標(biāo)。

  這個(gè)是我們做的幾個(gè)DEMO,在不同媒體上報(bào)道,最近云計(jì)算大會(huì)我們?cè)贑CTV做了一個(gè)報(bào)道,這個(gè)DEMO有一個(gè)1分鐘的視頻展示。這個(gè)模塊是人群的管理,我們把北京劃分成不同的網(wǎng)格尺度來(lái)實(shí)時(shí)監(jiān)控人口的變化,除了看網(wǎng)格,還可以分析某一塊區(qū)域,比如現(xiàn)在重點(diǎn)關(guān)注工體這一塊,我們發(fā)現(xiàn)這一塊人口過(guò)了一會(huì)兒之后可能人口會(huì)變得越來(lái)越多。我們根據(jù)百度搜索數(shù)據(jù)發(fā)現(xiàn)這塊可能有一個(gè)蘇打綠的演唱會(huì),下面是回龍觀(guān)和天通苑,這個(gè)是網(wǎng)格化之后,看有多少人在這個(gè)地方工作,這個(gè)網(wǎng)格和其他網(wǎng)格在空間上關(guān)聯(lián)的關(guān)系是什么樣的。我們同樣來(lái)看有多少人住在這個(gè)地方。另外,我們看整個(gè)中國(guó)網(wǎng)絡(luò),一個(gè)整個(gè)中國(guó)實(shí)時(shí)人口的變化。這個(gè)人口每年的遷入遷出量是什么樣,把這個(gè)數(shù)據(jù)和地方的GDP指標(biāo)做一個(gè)更好的關(guān)聯(lián)和預(yù)測(cè)。

  我們不久之后可能推出來(lái)一個(gè)研究,怎么根據(jù)線(xiàn)上線(xiàn)下的工具做一些商業(yè)性的服務(wù),比如酒店一段時(shí)間的入住率很低,我們可以從地圖搜索,看他之前的客戶(hù)大概特征是什么樣,然后他沒(méi)有去這個(gè)酒店,之后又去了哪個(gè)購(gòu)電,丟失客戶(hù)又去了哪些地方,怎么晚會(huì)這些客戶(hù),這是我們接下來(lái)做的一個(gè)工作,可能在接下來(lái)會(huì)推出,這主要是做2B的業(yè)務(wù),大概是這樣的,謝謝大家。

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評(píng)論

【登錄后才能評(píng)論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦