今年九月在紐約的O’Reilly媒體會議上大數(shù)據(jù)技術(shù)有兩大呼聲:企業(yè)級和敏捷。我們知道企業(yè)級的商務(wù)智能產(chǎn)品有Oracle Hyperion、SAP BusinessObjects和IBM Cogonos,而敏捷產(chǎn)品有QlikView、Tableau和TIBCO Spotfire。
如果事實證明大數(shù)據(jù)必須購買企業(yè)級的產(chǎn)品,那么就意味著大數(shù)據(jù)會花大本錢。但這并非絕對,通過使用大數(shù)據(jù)敏捷技術(shù),各種規(guī)模的企業(yè)都可以控制成本,從大數(shù)據(jù)中獲益。至關(guān)重要的是盡可能降低成本并最大化的了解大數(shù)據(jù)集,一旦數(shù)據(jù)被轉(zhuǎn)化為可用便具有對業(yè)務(wù)的洞察力,然后以各種方式將問題匯總,并發(fā)揮企業(yè)技術(shù)的優(yōu)勢解決問題。
企業(yè)級 VS 敏捷BI
首先讓我們來看看BI世界里發(fā)生了什么。企業(yè)級BI設(shè)計的意圖是為了滿足大型企業(yè)中許多信息孤島的要求。典型場景如下:信息孤島中的數(shù)據(jù)通過ETL的過程被清洗和規(guī)范化,進(jìn)入到數(shù)據(jù)倉庫中,成為一個可用的版本。然后,通過報表和分析技術(shù),數(shù)據(jù)被切片、切塊,并交付給成千上萬的人。企業(yè)級BI是一個復(fù)雜的過程,它通過多種應(yīng)用程序的協(xié)同工作,以滿足企業(yè)中成千上萬人的需求。企業(yè)級BI的問題是它的配置需要花費很長時間,所有大型的復(fù)雜系統(tǒng)都十分難以配置和改動。
敏捷BI可以解決企業(yè)BI所面對的諸多問題。敏捷BI可以以高度互動的方式為最終用戶排序、篩選和統(tǒng)計數(shù)據(jù),而不需要BI專家的指導(dǎo)。企業(yè)采用敏捷BI技術(shù),可以更廣泛的享受數(shù)據(jù)所體現(xiàn)的價值。
企業(yè)級 VS 敏捷的大數(shù)據(jù)
現(xiàn)在是大數(shù)據(jù)技術(shù)出場的時候了,EMC Greenplum、Teradata Aster Data等是企業(yè)級的代表,而1010data、Pervasive DataRush等則是敏捷的代表。這兩類廠商都意識到了企業(yè)級和敏捷在BI領(lǐng)域的鴻溝,并努力解決這個問題。企業(yè)級大數(shù)據(jù)供應(yīng)商知道他們需要敏捷,而敏捷的大數(shù)據(jù)廠商知道他們需要提供高質(zhì)量的企業(yè)級解決方案。
企業(yè)級大數(shù)據(jù)供應(yīng)商推出了一些靈活性解決方案。Greenplum推出了一個名為Chorus的產(chǎn)品,以提供一個協(xié)作環(huán)境,支持?jǐn)?shù)據(jù)分析和查找的過程。Aster提供了一系列SQL擴展,允許Hadoop類型的查詢使用類似與SQL的語法。在實現(xiàn)敏捷方面,這些產(chǎn)品的擴展是很大的進(jìn)步,但對Greenplum和Aster企業(yè)級技術(shù)所帶來的高昂價格標(biāo)簽,人們更感興趣的問題是:能否以敏捷的大數(shù)據(jù)技術(shù)彌補企業(yè)級技術(shù)的不足,以更少的投資獲得更多的回報?
敏捷的大數(shù)據(jù)解決企業(yè)級平臺的難題
回頭看看我們所提到的三種敏捷的大數(shù)據(jù)技術(shù),首先的問題是:它們?yōu)槭裁幢环Q作是敏捷的?
答案其實很簡單,它們可以讓用戶獲取非凡的數(shù)據(jù)洞察力,并削減價格。如下:
●只需經(jīng)過些許培訓(xùn),用戶就可以使用Splunk進(jìn)行數(shù)據(jù)的查詢、篩選和顯示
●1010data以電子表格的形式為用戶提供大數(shù)據(jù)的處理界面
●Pervasive DataRush以圖形界面并行、高效地處理數(shù)據(jù)
一個敏捷的大數(shù)據(jù)在大批量處理中的案例
David Inbar是Pervasive的市場發(fā)展戰(zhàn)略辦公室的首席執(zhí)行官,在價格低廉的做了一個實驗演示,處理了足夠龐大的可稱之為大數(shù)據(jù)的數(shù)據(jù)。
DataRush的工具包消除了程序員并行編程的復(fù)雜度。即便是科技狂人,相對編寫一個單線程的程序,并行編程也無異于是火箭科學(xué)。DataRush為并行編程提供了一種編程模型,以替代艱難的多核函數(shù)編碼。比如,你可以編寫一個基于組件模型的工作流應(yīng)用程序,該工具包會自動將其轉(zhuǎn)化為該工作流所允許的并行應(yīng)用程序。
大數(shù)據(jù)系統(tǒng)如Hadoop具有橫向擴展性。雖然DataRush可以承擔(dān)此類角色,并能在數(shù)千臺計算機中安裝,但是它的不同之處在于它一般在一臺計算機中安裝,用以發(fā)掘多核系統(tǒng)的潛能。
DataRush最有特色的功能是它并不需要你知道計算機究竟有多少個核,當(dāng)編寫一個DataRush應(yīng)用程序時,它會自動感知計算機上核心的數(shù)目,并最大限度地利用,以進(jìn)行并行處理。
將敏捷組件集合起來構(gòu)建企業(yè)級系統(tǒng)
敏捷技術(shù)在針對大數(shù)據(jù)創(chuàng)建智能業(yè)務(wù)系統(tǒng)方面具有極大優(yōu)勢,但仍然有相當(dāng)長的路要走。敏捷BI能夠降低成本,面對大數(shù)據(jù)的挑戰(zhàn),它將證明它的價值。
{{item.content}}