很多談?wù)?ldquo;大數(shù)據(jù)”的觀點(diǎn)著眼點(diǎn)在其數(shù)據(jù)量之大,如每天有多少個(gè)GB甚至TB的數(shù)據(jù)被制造出來(lái),但怎么樣存放和訪問(wèn)是存儲(chǔ)硬件巨頭們的事情,并且他們做的是如此的好,以至于我們根本不必?fù)?dān)心自己的數(shù)據(jù)無(wú)處可放——只要你肯出錢(qián)就行。“大數(shù)據(jù)”的“大”更多體現(xiàn)在數(shù)據(jù)的高維度上,當(dāng)一個(gè)數(shù)據(jù)的屬性超過(guò)數(shù)十項(xiàng)乃至上百項(xiàng)時(shí),想要了解不同屬性間的相關(guān)性或挖掘出數(shù)據(jù)間潛在的模式就非常的困難,這正是“大數(shù)據(jù)”的意義所在;但在很多PPT中,對(duì)于這么關(guān)鍵的內(nèi)容往往只能看到幾個(gè)干癟的字眼“分析、挖掘”,至于到底怎么樣來(lái)分析和挖掘,使用什么樣的工具,有什么樣的技巧,實(shí)現(xiàn)了什么價(jià)值,這些我從未見(jiàn)過(guò)。
另一個(gè)問(wèn)題是在地理信息應(yīng)用的大客戶群——電子政務(wù)領(lǐng)域——有那么多需要分析的大數(shù)據(jù)嗎?為了了解相關(guān)問(wèn)題,我曾經(jīng)問(wèn)過(guò)不同的人群:從賣(mài)存儲(chǔ)和負(fù)載均衡設(shè)備的售前工程師、不同信息中心的技術(shù)人員到相關(guān)業(yè)務(wù)系統(tǒng)的開(kāi)發(fā)工程師,他們給我的答案是:海量存儲(chǔ)和負(fù)載均衡是現(xiàn)在的一種標(biāo)配形式,市級(jí)層面的電子政務(wù)應(yīng)用幾乎沒(méi)有遇到過(guò)訪問(wèn)量激增以至需要負(fù)載均衡的情況。而在地理信息應(yīng)用中,我們的層次也大多處于“底圖共享”階段,離真正的數(shù)據(jù)挖掘和分析還很遠(yuǎn):包括數(shù)據(jù)、方法和應(yīng)用場(chǎng)景都還沒(méi)有準(zhǔn)備成熟。
如果作為一種技術(shù)理念和研究方向,這些演講和PPT內(nèi)容倒也無(wú)可厚非。然而惡劣的是,有些企業(yè)則是已經(jīng)開(kāi)始兜售由全套開(kāi)源產(chǎn)品組成的所謂“大數(shù)據(jù)分析平臺(tái)”,從Hadoop、HDFS、Hbase、Hive到R,能想到的概念和名詞全部砌在一起,似乎他們已經(jīng)完美地實(shí)現(xiàn)了基于大數(shù)據(jù)的空間數(shù)據(jù)存儲(chǔ)和分析流程,將用戶忽悠的一愣一愣,但在現(xiàn)實(shí)中你卻從未找到過(guò)他們分析的一個(gè)數(shù)據(jù)實(shí)例。這些無(wú)法落地的行為已經(jīng)在喪失一個(gè)企業(yè)的節(jié)操,說(shuō)多了,反感自然就來(lái)了。(文丨蔣波濤)
{{item.content}}