大數(shù)據(jù)時代不是突然出現(xiàn)的,實際上過去的幾十年間,數(shù)學分析就已經(jīng)涉獵金融行業(yè)了,諾貝爾經(jīng)濟學獎獲得者哈里.馬克維茨、威廉.夏普、羅伯特.恩格爾就是利用計量經(jīng)濟學知識和金融市場數(shù)據(jù)來建立數(shù)學模型,預測金融市場產(chǎn)品收益同風險波動的關系。大數(shù)據(jù)時代的出現(xiàn)簡單的講是海量數(shù)據(jù)同完美計算能力結合的結果。確切的說是移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生了海量的數(shù)據(jù),大數(shù)據(jù)計算技術完美地解決了海量數(shù)據(jù)的收集、存儲、計算、分析的問題。大數(shù)據(jù)時代開啟人類社會利用數(shù)據(jù)價值的另一個時代。
責任編輯:admin
首先來介紹一下大數(shù)據(jù)時代中新出現(xiàn)的數(shù)據(jù)類型:
1)過于一些記錄是以模擬形式方式存在的,或者以數(shù)據(jù)形式存在但是存貯在本地,不是公開數(shù)據(jù)資源,沒有開放給互聯(lián)網(wǎng)用戶,例如音樂、照片、視頻、監(jiān)控錄像等影音資料?,F(xiàn)在這些數(shù)據(jù)不但數(shù)據(jù)量巨大,并且共享到了互聯(lián)網(wǎng)上,面對所有互聯(lián)網(wǎng)用戶,其數(shù)量之大是前所未有。舉個例子Facebook每天有18億張照片上傳或被傳播,形成了海量的數(shù)據(jù)。
2)移動互聯(lián)網(wǎng)出現(xiàn)后,移動設備的很多傳感器收集了大量的用戶點擊行為數(shù)據(jù),已知IPHONE有3個傳感器,三星有6個傳感器。它們每天產(chǎn)生了大量的點擊數(shù)據(jù),這些數(shù)據(jù)被某些公司所有擁有,形成用戶大量行為數(shù)據(jù)。
3)電子地圖如高德、百度、Google地圖出現(xiàn)后,其產(chǎn)生了大量的數(shù)據(jù)流數(shù)據(jù),這些數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),傳統(tǒng)數(shù)據(jù)代表一個屬性或一個度量值,但是這些地圖產(chǎn)生的流數(shù)據(jù)代表著一種行為、一種習慣,這些流數(shù)據(jù)經(jīng)頻率分析后會產(chǎn)生巨大的商業(yè)價值?;诘貓D產(chǎn)生的數(shù)據(jù)流是一種新型的數(shù)據(jù)類型,在過去是不存在的。
4)進入了社交網(wǎng)絡的年代后,互聯(lián)網(wǎng)行為主要由用戶參與創(chuàng)造,大量的互聯(lián)網(wǎng)用戶創(chuàng)造出海量的社交行為數(shù)據(jù),這些數(shù)據(jù)是過去未曾出現(xiàn)的。其揭示了人們行為特點和生活習慣。
5)電商戶崛起產(chǎn)來了大量網(wǎng)上交易數(shù)據(jù),包含支付數(shù)據(jù),查詢行為,物流運輸、購買喜好,點擊順序,評價行為等,其是信息流和資金流數(shù)據(jù)。
6)傳統(tǒng)的互聯(lián)網(wǎng)入口轉向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數(shù)據(jù)。單位存儲價格的下降也為存儲這些數(shù)據(jù)提供了經(jīng)濟上的可能。
我們所指的大數(shù)據(jù)不同與過去傳統(tǒng)的數(shù)據(jù),其產(chǎn)生方式、存儲載體、訪問方式、表現(xiàn)形式、來源特點等都同傳統(tǒng)數(shù)據(jù)不同。大數(shù)據(jù)更接近于某個群體行為數(shù)據(jù),它是全面的數(shù)據(jù)、準確的數(shù)據(jù)、有價值的數(shù)據(jù)。
一、大數(shù)據(jù)時代帶給我們的思考
1)大數(shù)據(jù)計算提高數(shù)據(jù)處理效率,增加人類認知盈余
大數(shù)據(jù)技術就像其他的技術革命一樣,是從效率提升入手。大數(shù)據(jù)技術平臺的出現(xiàn)提升了數(shù)據(jù)處理效率。其效率的提升是幾何級數(shù)增長的,過去需要幾天或更多時間處理的數(shù)據(jù),現(xiàn)在可能在幾分鐘之內(nèi)就會完成。大數(shù)據(jù)的高效計算能力,為人類節(jié)省了更多的時間。我們都知道效率提升是人類社會進步的典型標志,可以推斷大數(shù)據(jù)技術將帶領人類社會進入另外一個階段。通過大數(shù)據(jù)計算節(jié)省下來的時間,人們可以去消費,娛樂和創(chuàng)造。未來大數(shù)據(jù)計算將釋放人類社會巨大的產(chǎn)能,增加人類認知盈余,幫助人類更好地改造世界。
2)大數(shù)據(jù)通過全局的數(shù)據(jù)讓人類了解事物背后的真相
相對于過去的樣本代替全體的統(tǒng)計方法,大數(shù)據(jù)將使用全局的數(shù)據(jù),其統(tǒng)計出來的結果更為精確,更接事物真相,幫助科學家了解事物背后的真相。大數(shù)據(jù)帶來的統(tǒng)計結果將糾正過去人們對事物錯誤的認識,影響過去人類行為、社會行為的結論,帶來全新的認知。有利于政府、企業(yè)、科學家對過去人類社會的各種歷史行為真正原因的了解,大數(shù)據(jù)統(tǒng)計將糾正樣本統(tǒng)計誤差,為統(tǒng)計結論不斷糾錯。大數(shù)據(jù)可以讓人類更加接近了解大自然,增加對自然災害原因的了解。
3)大數(shù)據(jù)有助于了解事物發(fā)展的客觀規(guī)律,利于科學決策
大數(shù)據(jù)收集了全局的數(shù)據(jù),準確的數(shù)據(jù),通過大數(shù)據(jù)計算統(tǒng)計出了解事物發(fā)展過程中的真相,通過數(shù)據(jù)分析出解人類社會的發(fā)展規(guī)律,自然界發(fā)展規(guī)律。利用大數(shù)據(jù)提供的分析結果來歸納和演繹出事物的發(fā)展規(guī)律,通過掌握事物發(fā)展規(guī)律來幫助人們進行科學決策,大數(shù)據(jù)時代的精準營銷就是典型的應用。
4)大數(shù)據(jù)提供了同事物的連接,客觀了解人類行為
在沒有大數(shù)據(jù)之前,我們了解人類行為的數(shù)據(jù)往往來源于一些被動的調(diào)查表格及滯后的統(tǒng)計數(shù)據(jù)。擁有了大數(shù)據(jù)技術之后,大量的傳感器如手機APP、攝像頭、分享的圖片和視頻等讓我們更加客觀的了解人類的行為。大數(shù)據(jù)技術連接了人類行為,通過大數(shù)據(jù)將人類的行為數(shù)據(jù)收集起來,經(jīng)過一定的分析后來統(tǒng)計人類行為,幫助我們了解人類的行為??梢哉f大數(shù)據(jù)的一個重要作用就是將人類行為數(shù)據(jù)進行收集分析,了解人類行為特點,為數(shù)據(jù)價值的商業(yè)運用提供基礎資產(chǎn)
5)大數(shù)據(jù)改變過去的經(jīng)驗思維,幫助人們建立數(shù)據(jù)思維
人類社會的發(fā)展一直都在依賴著數(shù)據(jù),無論是各國文明的演化,農(nóng)業(yè)的規(guī)劃,工業(yè)的發(fā)展,軍事戰(zhàn)役及政治事件等。但是出現(xiàn)大數(shù)據(jù)之后,我們將會面對著海量的數(shù)據(jù),多種維度的數(shù)據(jù)、行為的數(shù)據(jù)、情緒的數(shù)據(jù)、實時的數(shù)據(jù)。這些數(shù)據(jù)是過去沒有了解到的,通過大數(shù)據(jù)計算和分析技術,人們將會得到不同的事物真相,不同的事物發(fā)展規(guī)律。依靠大數(shù)據(jù)提供的數(shù)據(jù)分析報告,人們將會發(fā)現(xiàn)決定一件事、判斷一件事、了解一件事不再變得困難。各國政府和企業(yè)將借助于大數(shù)據(jù)來了解民眾需求,拋棄過去的經(jīng)驗思維和慣性思維,掌握客觀規(guī)律,跳出歷史預測未來的困境。
二、大數(shù)據(jù)的企業(yè)應用場景
大數(shù)據(jù)時代最有意義就是利用大數(shù)據(jù)及大數(shù)據(jù)技術創(chuàng)造價值,大數(shù)據(jù)的企業(yè)應用場景就是介紹大數(shù)據(jù)在行業(yè)的應用,體現(xiàn)大數(shù)據(jù)商業(yè)價值。大數(shù)據(jù)的應用場景會將提升企業(yè)對大數(shù)據(jù)的關注,鼓勵企業(yè)大數(shù)據(jù)產(chǎn)業(yè)中投入更多的資源,利用大數(shù)據(jù)這個工具,為人類社會造福。大數(shù)據(jù)的應用可以分為企業(yè)應用和政府應用,其關注點有所不同,我們分開介紹,先從大數(shù)據(jù)在企業(yè)應用開始談起。
1)醫(yī)療行業(yè)
醫(yī)療行業(yè)擁有大量的病例,病理報告,治愈方案,藥物報告等等。如果這些數(shù)據(jù)可以被整理和應用將會極大地幫助醫(yī)生和病人。我們面對的數(shù)目及種類眾多的病菌、病毒,以及腫瘤細胞,其都處于不斷的進化的過程中。在發(fā)現(xiàn)診斷疾病時,疾病的確診和治療方案的確定是最困難的。在未來,借助于大數(shù)據(jù)平臺我們可以收集不同病例和治療方案,以及病人的基本特征,可以建立針對疾病特點的數(shù)據(jù)庫。如果未來基因技術發(fā)展成熟,可以根據(jù)病人的基因序列特點進行分類,建立醫(yī)療行業(yè)的病人分類數(shù)據(jù)庫。在醫(yī)生診斷病人時可以參考病人的疾病特征、化驗報告和檢測報告,參考疾病數(shù)據(jù)庫來快速幫助病人確診,明確定位疾病。在制定治療方案時,醫(yī)生可以依據(jù)病人的基因特點,調(diào)取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時進行治療。同時這些數(shù)據(jù)也有利于醫(yī)藥行業(yè)開發(fā)出更加有效的藥物和醫(yī)療器械。醫(yī)療行業(yè)的數(shù)據(jù)應用一直在進行,但是數(shù)據(jù)沒有打通,都是孤島數(shù)據(jù),沒有辦法起大規(guī)模應用。未來需要將這些數(shù)據(jù)統(tǒng)一收集起來,納入統(tǒng)一的大數(shù)據(jù)平臺,為人類健康造福。政府和醫(yī)療行業(yè)是推動這一趨勢的重要動力。
2)生物技術
主要是指大數(shù)據(jù)技術在基因分析上的應用,通過大數(shù)據(jù)平臺人類可以將自身和生物體基因分析的結果進行記錄和存儲,利用建立基于大數(shù)據(jù)技術的基因數(shù)據(jù)庫。大數(shù)據(jù)技術將會加速基因技術的研究,快速幫助科學家進行模型的建立和基因組合模擬計算。基因技術是人類未來戰(zhàn)勝疾病的重要武器,借助于大數(shù)據(jù)技術的應用,人們將會加快自身基因和其它他生物的基因的研究進程。未來利用生物基因技術來改良農(nóng)作物,利用基因技術來培養(yǎng)人類器官,利用基因技術來消滅害蟲都即將實現(xiàn)。
3)金融行業(yè)
大數(shù)據(jù)在金融行業(yè)應用范圍較廣,典型的案例有花旗銀行利用IBM沃森電腦為財富管理客戶推薦產(chǎn)品,美國銀行利用客戶點擊數(shù)據(jù)集為客戶提供特色服務,如有競爭的信用額度。,招商銀行利用客戶刷卡、存取款、電子銀行轉帳、微信評論等行為數(shù)據(jù)進行分析,每周給客戶發(fā)送針對性廣告信息,里面有顧客可能感興趣的產(chǎn)品和優(yōu)惠信息。大數(shù)據(jù)在金融行業(yè)的應用可以總結為以下五個方面:
精準營銷:依據(jù)客戶消費習慣、地理位置、消費時間進行推薦
風險管控:依據(jù)客戶消費和現(xiàn)金流提供信用評級或融資支持,利用客戶社交行為記錄實施信用卡反欺詐
決策支持:利用抉策樹技術進抵押貸款管理,利用數(shù)據(jù)分析報告實施產(chǎn)業(yè)信貸風險控制
效率提升:利用金融行業(yè)全局數(shù)據(jù)了解業(yè)務運營薄弱點,利用大數(shù)據(jù)技術加快內(nèi)部數(shù)據(jù)處理速度
產(chǎn)品設計:利用大數(shù)據(jù)計算技術為財富客戶推薦產(chǎn)品,利用客戶行為數(shù)據(jù)設計滿足客戶需求的金融產(chǎn)品
4)零售行業(yè)
零售行業(yè)大數(shù)據(jù)應用有兩個層面,一個層面是零售行業(yè)可以了解客戶消費喜好和趨勢,進行商品的精準營銷,降低營銷成本。另一層面是依據(jù)客戶購買產(chǎn)品,為客戶提供可能購買的其它產(chǎn)品,擴大銷售額,也屬于精準營銷范疇。另外零售行業(yè)可以通過大數(shù)據(jù)掌握未來消費趨勢,有利于熱銷商品的進貨管理和過季商品的處理。零售行業(yè)的數(shù)據(jù)對于產(chǎn)品生產(chǎn)廠家是非常寶貴的,零售商的數(shù)據(jù)信息將會有助于資源的有效利用,降低產(chǎn)能過剩,廠商依據(jù)零售商的信息按實際需求進行生產(chǎn),減少不必要的生產(chǎn)浪費。
5)電商
電商是最早利用大數(shù)據(jù)進行精準營銷的行業(yè),除了精準營銷,電商可以依據(jù)客戶消費習慣來提前為客戶備貨,并利用便利店作為貨物中轉點,在客戶下單15分鐘內(nèi)將貨物送上門,提高客戶體驗。馬云的菜鳥網(wǎng)絡宣稱的24小時完成在中國境內(nèi)的送貨,以及京的劉強東宣傳未來京東將在15分鐘完成送貨上門都是基于客戶消費習慣的大數(shù)據(jù)分析和預測。電商可以利用其交易數(shù)據(jù)和現(xiàn)金流數(shù)據(jù),為其生態(tài)圈內(nèi)的商戶提供基于現(xiàn)金流的小額貸款,電商業(yè)也可以將此數(shù)據(jù)提供給銀行,同銀行合作為中小企業(yè)提供信貸支持。由于電商的數(shù)據(jù)較為集中,數(shù)據(jù)量足夠大,數(shù)據(jù)種類較多,因此未來電商數(shù)據(jù)應用將會有更多的想象空間,包括預測流行趨勢,消費趨勢、地域消費特點、客戶消費習慣、各種消費行為的相關度、消費熱點、影響消費的重要因素等。依托大數(shù)據(jù)分析,電商的消費報告將有利于品牌公司產(chǎn)品設計,生產(chǎn)企業(yè)的庫存管理和計劃生產(chǎn),物流企業(yè)的資源配制,生產(chǎn)資料提供方產(chǎn)能安排等等,有利于精細化社會化大生產(chǎn),有利于精細化社會的出現(xiàn)。
6)農(nóng)牧業(yè)
大數(shù)據(jù)在農(nóng)業(yè)應用主要是指依據(jù)未來商業(yè)需求的預測來進行農(nóng)牧產(chǎn)品生產(chǎn),降低菜賤傷農(nóng)的概率。同時大數(shù)據(jù)的分析將會更見精確預測未來的天氣氣候,幫助農(nóng)牧民做好自然災害的預防工作。大數(shù)據(jù)同時也會幫助農(nóng)民依據(jù)消費者消費習慣決定來增加哪些品種的種植,減少哪些品種農(nóng)作物的生產(chǎn),提高單位種植面積的產(chǎn)值,同時有助于快速銷售農(nóng)產(chǎn)品,完成資金回流。牧民可以通過大數(shù)據(jù)分析來安排放牧范圍,有效利用牧場。漁民可以利用大數(shù)據(jù)安排休漁期、定位捕魚范圍等。
三、大數(shù)據(jù)的政府應用場景
大數(shù)據(jù)另外一個重要應用領域就是在政府。利用提供的全局的數(shù)據(jù)、準確的數(shù)據(jù)、高效的數(shù)據(jù),政府可以實現(xiàn)精細化管理。政府過去一直都在利用數(shù)據(jù)來進行管理,但是過去由于沒有高效的數(shù)據(jù)處理平臺,造成了很多數(shù)據(jù)只是在收集,沒有體現(xiàn)其社會價值。由于缺少全局的數(shù)據(jù)和完善的數(shù)據(jù),數(shù)據(jù)自身沒有體現(xiàn)其應用的價值,所以在過去政府不重視數(shù)據(jù)價值。依托于大數(shù)據(jù)和大數(shù)據(jù)技術,政府可以及時得到更加準確信息,利用這些信息,政府可以更加高效的管理國家這部機器,實現(xiàn)精細化資源配置和宏觀調(diào)控。
1)交通
交通的大數(shù)據(jù)應用主要在兩個方面,一方面可以利用大數(shù)據(jù)傳感器數(shù)據(jù)來了解車輛通行密度,合理進行道路規(guī)劃包括單行線路規(guī)劃。另一方面可以利用大活數(shù)據(jù)來實現(xiàn)即時信號燈調(diào)度,提高已有線路運行能力??茖W的安排信號燈是一個復雜的系統(tǒng)工程,必須利用大數(shù)據(jù)計算平臺才能計算出一個較為合理的方案??茖W的信號燈安排將會提高30%左右已有道路的通行能力。在美國,政府依據(jù)某一路段的交通事故信息來增設信號燈,降低了50%以上的交通事故率。機場的航班起降依靠大數(shù)據(jù)將會提高航班管理的效率,航空公司利用大數(shù)據(jù)可以提高上座率,降低運行成本。鐵路利用大數(shù)據(jù)可以有效安排客運和貨運列車,提高效率、降低成本。
2)天氣預報
借助于大數(shù)據(jù)技術,天氣預報的準確性和實效性將會大大提高,預報的及時性將會大大提升,同時對于重大自然災害,例如龍卷風,通過大數(shù)據(jù)計算平臺,人們將會更加精確地了解其運動軌跡和危害的等級,有利于幫助人們提高應對自然災害的能力。天氣預報的準確度的提升和預測周期的延長將會有利于農(nóng)業(yè)生產(chǎn)的安排。
3)農(nóng)牧業(yè)
由于農(nóng)產(chǎn)品不容易保存,因此合理種植和養(yǎng)殖農(nóng)產(chǎn)品對十分重要。如果沒有規(guī)劃好,容易產(chǎn)生菜賤傷農(nóng)的悲劇。過去出現(xiàn)的豬肉過剩、卷心菜過剩、香蕉過剩的原因就是農(nóng)牧業(yè)沒有規(guī)劃好。借助于大數(shù)據(jù)提供的消費趨勢報告和消費習慣報告,政府將為農(nóng)牧業(yè)生產(chǎn)提供合理引導,建議依據(jù)需求進行生產(chǎn),避免產(chǎn)能過剩,造成不必要的資源和社會財富浪費。農(nóng)業(yè)關乎到國計民生,科學的規(guī)劃將有助于社會整體效率提升。大數(shù)據(jù)技術可以幫助政府實現(xiàn)農(nóng)業(yè)的精細化管理,實現(xiàn)科學決策。在數(shù)據(jù)驅動下,結合無人機技術,農(nóng)民可以采集農(nóng)產(chǎn)品生長信息,病蟲害信息。相對于過去雇傭飛機成本將大大降低,同時精度也將大大提高。
4)醫(yī)藥衛(wèi)生
食品安全問題直是國家的重點關注問題,關系大人們的身體健康和國家安全。最近幾年外國旅游者減少了到中國旅游,進口食品大幅度增加,食品安全問題是其中的一個重要原因。在數(shù)據(jù)驅動下,采集人們在互聯(lián)網(wǎng)上提供的舉報信息,國家可以掌握部分鄉(xiāng)村和城市的死角信息,挖出不法加工點,提高執(zhí)法透明度,降低執(zhí)法成本。國家可以參考醫(yī)院提供的就診信息,分析出涉及食品安全的信息,及時進行監(jiān)督檢查,第一時間進行處理,降低已有不安全食品的危害。參考個體在互聯(lián)網(wǎng)的搜索信息,掌握流行疾病在某些區(qū)域和季節(jié)的爆發(fā)趨勢,及時進行干預,降低其流行危害。政府可以提供不安全食品廠商信息,不安全食品信息,幫助人們提高食品安全意識。
5)宏觀調(diào)控和財政支出
政府利用大數(shù)據(jù)技術可以了解各地區(qū)的經(jīng)濟發(fā)展情況,各產(chǎn)業(yè)發(fā)展情況,消費支出和產(chǎn)品銷售情況,依據(jù)數(shù)據(jù)分析結果,科學地制定宏觀政策,平衡各產(chǎn)業(yè)發(fā)展,避免產(chǎn)能過剩,有效利用自然資源和社會資源,提高社會生產(chǎn)效率。大數(shù)據(jù)還還可以幫助政府進行監(jiān)控自然資源的管理,無論是國土資源、水資源、礦產(chǎn)資源、能源等,大數(shù)據(jù)通過各種傳感器來提高其管理的精準度。同時大數(shù)據(jù)技術也能幫助政府進行支出管理,透明合理的財政支出將有利于提高公信力和監(jiān)督財政支出。大數(shù)據(jù)及大數(shù)據(jù)技術帶給政府的不僅僅是效率提升、科學決策、精細管理,更重要的是數(shù)據(jù)治國、科學管理的意識改變,未來大數(shù)據(jù)將會從各個方面來幫助政府實施高效和精細化管理。政府運作效率的提升,決策的科學客觀,財政支出合理透明都將大大提升國家整體實力,成為國家競爭優(yōu)勢。大數(shù)據(jù)帶個國家和社會的益處將會具有極大的想象空間。
6)社會群體自助及犯罪管理
國家正在將大數(shù)據(jù)技術用于輿情監(jiān)控,其收集到的數(shù)據(jù)除了解民眾訴求,降低群體事件之外,還可以用于犯罪管理。大量的社會行為正逐步走向互聯(lián)網(wǎng),人們更愿意借助于互聯(lián)網(wǎng)平臺來表述自己的想法和宣泄情緒。社交媒體和朋友圈正成為追蹤人們社會行為的平臺,正能量的東西有,負能量的東西也不少。一些好心人通過微博來幫助別人尋找走失的親人或提供可能被拐賣人口的信息,這些都是社會群體互助的例子。國家可以利用社交媒體分享的圖片和交流信息,來收集個體情緒信息,預防個體犯罪行為和反社會行為。最近警方通過微搏信息抓獲了聚眾吸毒的人,處罰了虐待小孩的家長。[page]
四、大數(shù)據(jù)技術及廠商
由于本篇文章主要的目的是進行大數(shù)據(jù)知識普及,因此在大數(shù)據(jù)技術和平臺方面就不進行深入探討,主要介紹一些典型的大數(shù)據(jù)技術和行業(yè)解決方案,具體的大家可以參考趙剛老師的《大數(shù)據(jù)技術與應用實踐指南》,以及邁克爾.梅內(nèi)里(MichaelMinelli)《大數(shù)據(jù)分析決生互連網(wǎng)金融時代》(BIGDATABIGANALYTICS)。以下內(nèi)容主要來源于以上兩本書。
大數(shù)據(jù)技術必談的Hadoop和MapReduce.
Hadoop的最早創(chuàng)始人是DougCutting(曾經(jīng)在雅虎公司工作,現(xiàn)在Cloudera工作)和MikeCafrella.他們當時在從事一個名為Nutch的開源項目,該項目主要致力于創(chuàng)建Web海量檢索框架,在研究過程中他們參考了google的MapReduce和GFS(GoogleFilesSystem)的技術,開發(fā)出Hadoop數(shù)據(jù)處理平臺。Hadoop的名稱來源于Doug的兒子為一只黃毛絨玩具長毛象取的名字。
Hadoop主要特點是,運行在標準硬件之上的Hadoop可以以傳統(tǒng)解決方案1/10的成本從海量的數(shù)分析分析復雜問題,可以勝任收搜索系統(tǒng)、登錄系統(tǒng)、推薦系統(tǒng)、數(shù)據(jù)倉庫、語音/圖像分析等。其是一個開源軟件,同傳統(tǒng)的技術不Hadoop能在它原有格式里存儲任意種類數(shù)據(jù),并基于這些數(shù)據(jù)衍生一系列分析和變化??梢粤畠r的存儲百萬兆(Terabyte)甚至千萬億字節(jié)(Petabyte)數(shù)據(jù)。HDFS和MapReduece是其兩個關鍵要素。
HDFS將數(shù)據(jù)分成若干片段后分布存儲在集群中的不同服務器上。每臺服務器只存儲數(shù)據(jù)的若干片段,并且數(shù)據(jù)的每個片段被冗余存儲在多個服務器之上。分析工作可以在存儲數(shù)據(jù)的每個服務器上并行計算分析。每臺服務同時對自己存儲的數(shù)據(jù)片段進行分析并將結果范圍,最后在匯總計算為一個詳盡的分析結果,MapReduce就是這種收集和匯總分析結果代理。
主流的大數(shù)據(jù)廠商分為大數(shù)據(jù)分析基礎設施,大數(shù)據(jù)操作基礎設施,大數(shù)據(jù)基礎云服務,傳統(tǒng)結構化數(shù)據(jù)庫,商業(yè)智能,可視化領域等,下面將一一介紹。
1)大數(shù)據(jù)分析基礎設施
主要指Hadoop的發(fā)行版本產(chǎn)品,主要廠商有Cloudera,Hortonworks,MapR.其他還包括HP的Vertica,EMC的GreenplumHD,IBM的BigInsights
2)大數(shù)據(jù)操作基礎設施
主要是指企業(yè)級的NoSQL數(shù)據(jù)庫和SQLonHadoop產(chǎn)品。主要產(chǎn)品有Caouchbase,Hadapt,Teredata,Marklogic等
3)大數(shù)據(jù)基礎云服務(IAAS)
基于大數(shù)據(jù)基礎設施提供云服務的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等
4)關系型數(shù)據(jù)庫
關系型數(shù)據(jù)庫產(chǎn)品Oracle、MicrosoftSQLserver、SAPSybase、IBMDB2、MySQL、PostgreSAL,MemSQL等
5)數(shù)據(jù)云服務(DAAS)
DaaS的服務主要有WindowsAzureMarketplace、Datasift、SpaceCurve、Factual等
6)商業(yè)智能產(chǎn)品
BI產(chǎn)品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等這些產(chǎn)品通常具有分析和可視化能力。
7)分析和可視化應用
主要產(chǎn)品有SAS,TeraDataAster,EMCGreenplum,TableauSoftware,Tibco等。
8)日志應用
主要產(chǎn)品有Splunk、Loggly、SumoLogic。其中Splunk是一個可運行于各種平臺的IT數(shù)據(jù)、日志分析軟件。
9)廣告/媒體應用
主要產(chǎn)品有MediaScience、BlucefinLaps、RocketFuelDataXu,RecordedFuture.其中RocketFuel是一家廣告優(yōu)化公司,每天處理15億次品牌廣告展示,廣告效果完全基于數(shù)據(jù)來改善。
10)垂直應用
主要有PredictivePliciing、BloomReach,Myrrix,Atigeo.其中BloomReach公司面向市場開發(fā)大數(shù)據(jù)應用(BDA),通過機器學習,網(wǎng)絡爬蟲和搜索技術來挖掘數(shù)據(jù),對網(wǎng)站的數(shù)據(jù)進行分析,然后為網(wǎng)站帶來更多的流量,從而給他們的客戶帶來更多的利潤。
國內(nèi)的互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)應用和研發(fā)方面處于較好的水平例如淘寶、百度、騰訊、新浪等。但是在大數(shù)據(jù)產(chǎn)品和技術服務領域卻落后于國際廠商。國際主流大數(shù)據(jù)產(chǎn)商包括Cloudera、Hortonworks、MapR,IBM,Oracle,EMC,Intel,SAP,Teredata。具體的解決方案請參考趙剛老師的書《大數(shù)據(jù)技術與應用實踐指南》
五、大數(shù)據(jù)產(chǎn)業(yè)鏈介紹
由于大數(shù)據(jù)及大數(shù)據(jù)技術是一個工具,無法像互聯(lián)網(wǎng)企業(yè)那樣形成一個大數(shù)據(jù)生態(tài)圈,形成閉環(huán)。但是從數(shù)據(jù)的收集,存貯,處理,分析,銷毀等方面分析,可以形成大數(shù)據(jù)產(chǎn)業(yè)鏈。
數(shù)據(jù)的收集
主要是指各種數(shù)據(jù)通過傳感器或其他方式被采集,大數(shù)據(jù)的的采集除了傳統(tǒng)的互連網(wǎng)入口、社交平臺、搜索引擎、電商交易數(shù)據(jù)、在線問答、企業(yè)業(yè)務數(shù)據(jù)外,移動互聯(lián)網(wǎng)的App將是一個重要的數(shù)據(jù)入口,例如通過手機APP內(nèi)嵌的SDK將手機App上的用戶行為數(shù)據(jù)集中進行收集和處理,TalkingData目前是這一領域的領先的大數(shù)據(jù)廠商,他們既有大數(shù)據(jù)又有數(shù)據(jù)管理平臺DMP。攝像頭采集的數(shù)據(jù)、導航地圖的軌跡數(shù)據(jù)、物流信息、移動互聯(lián)網(wǎng)App的LBS位置數(shù)據(jù)等都大數(shù)據(jù)的重要來源。在這個階段主要是指擁有大數(shù)據(jù)的公司例如BAT,通訊行業(yè)、互聯(lián)網(wǎng)企業(yè)、物流行業(yè)、零售行業(yè)、醫(yī)療行業(yè)等,它們需要大數(shù)據(jù)采集和存儲產(chǎn)品。
數(shù)據(jù)的存儲
主要是指利用何種方式進行數(shù)據(jù)存貯,對于中小企業(yè),云存儲是以個不錯的原則,對于金融行業(yè)和其他對數(shù)據(jù)保有權較為重視的企業(yè),私有云將是一個不錯的選擇。政府主導的大數(shù)據(jù)存儲平臺可以作為參考。如果認為云平臺無法采用時,采用低端的并行計算機可能是一個經(jīng)濟的方案,但是由于沒有云操作系統(tǒng),其存儲的效率是個較大的挑戰(zhàn)。EMC、NetAPP、日立的NAS存儲可以考慮。SAN存儲由于成本過高,不建議用于大數(shù)據(jù)存儲,但是土豪除外。
數(shù)據(jù)處理
數(shù)據(jù)處理主要是指數(shù)據(jù)處理平臺,采用了SAAS概念的大數(shù)據(jù)處理平臺都可以考慮,企業(yè)在考慮處理平臺時建議,循序漸進,以未來2年內(nèi)的數(shù)據(jù)處理量為參考,千萬不要一次投資到位,因為數(shù)據(jù)處理的技術發(fā)展是幾何級數(shù)的,兩年后采用新的技術平臺,其ROI將會大大降低,采用Cloudera,Hortonworks,MapR的Hadoop產(chǎn)品都可以,如果其在中國沒有成熟團隊建議考慮IBM,HP,Oracle的解決方案,他們的案例較多。
數(shù)據(jù)分析
主要是指如何對處理完的數(shù)據(jù)進行商業(yè)分析,業(yè)務需求和技術需求必須有本企業(yè)技術和商業(yè)人員主導,外部廠商很難了解企業(yè)自身的商業(yè)需求,但是數(shù)據(jù)展現(xiàn)形式和分析方式可以交給廠商來做,主要涉及的廠商是傳統(tǒng)的商業(yè)智能產(chǎn)品和可視化應用,包括Oracle的Hyperion、Teredata、SAPBusinessObjects,IBMCongnos,SAS,HP的Autonomy、QlikView等。
數(shù)據(jù)銷毀
主要是指數(shù)據(jù)如何進行安全管理,對于不再需要的數(shù)據(jù)如何進行銷毀,鑒于數(shù)據(jù)的數(shù)量較大,存儲需要重用,因此數(shù)據(jù)索引刪除、數(shù)據(jù)空間7次重寫,數(shù)據(jù)混淆、數(shù)據(jù)對稱加密等方式都可以用作數(shù)據(jù)銷毀,目前此階段市場需求不多,因此還沒有較為成熟的方案和廠商,未來將會用安全廠商進入此領域。
由于目前大數(shù)據(jù)產(chǎn)業(yè)的商業(yè)模式和盈利模式還在探索之中,大數(shù)據(jù)帶來的直接收益還沒有明確,目前主要的商業(yè)形式還是大數(shù)企業(yè)自身的大數(shù)據(jù)應用(例如,大數(shù)據(jù)計算平臺,大數(shù)據(jù)采集和分析,數(shù)據(jù)分析報告),行業(yè)應用處于一個探索的階段,在大數(shù)據(jù)較為集中的電信行業(yè),并沒有成立數(shù)據(jù)事業(yè)部,數(shù)據(jù)被當作資產(chǎn)良好的保存起來,國外的大數(shù)據(jù)投資`在2005年就開始了,很多高科技企業(yè)已經(jīng)大數(shù)產(chǎn)業(yè)鏈上投入巨資進行技術開發(fā)和行業(yè)應用。
六、大數(shù)據(jù)隱私保護
大數(shù)據(jù)的隱私和倫理已經(jīng)爭論了很多年,由于其涉及我們每個人的自身利益,大數(shù)據(jù)隱私保護是大數(shù)據(jù)產(chǎn)業(yè)需要正面面對的問題。大數(shù)據(jù)在采集過程中必定會涉及到隱私數(shù)據(jù),的收集,如果其保護的不好將會造成嚴重的后果,成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的瓶頸。過度強調(diào)大數(shù)據(jù)的商業(yè)應用而忽視了大數(shù)據(jù)產(chǎn)業(yè)的隱私保護,將會產(chǎn)生災難性的后果,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展可能會因此被禁止。過度強調(diào)隱私保護而不發(fā)展大數(shù)據(jù)產(chǎn)業(yè)也是一個錯誤的選擇,人類可能會錯失一個高速發(fā)展的機遇。大數(shù)據(jù)產(chǎn)業(yè)發(fā)展要建立在隱私保護基礎之上,同時隱私保護也將通過適當約束來助推大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。
大數(shù)據(jù)企業(yè)在采集外部數(shù)據(jù)時,應該注意盡量不要收集可以識別出個人的PII信息,參照美國個人隱私定義者,PII信息包括姓名、地址、手機號碼、身份證號、駕駛證號、銀行帳號、借記卡/信用卡號。大數(shù)據(jù)企業(yè)在使用自身擁有的信息時也要注意保護敏感信息例如民族、政治意見、宗教信仰、健康/醫(yī)療信息,婚姻狀況、性生活、年齡、性別、犯罪記錄、個人喜好、標準IP地址等。
大數(shù)據(jù)企業(yè)應該在其公司的章程和文件中體現(xiàn)對個人隱私數(shù)據(jù)的保護,堅持遵守全球隱私保護7條原則;
1)知曉權(透明性):應該通知本人關于所收集信息的目的
2)選擇權:提供機會選擇或放棄所提供的個人信息是否被使用或如何被使用
3)同意權:再符合知曉權和選擇權的情況下才可以向第三方透露個人數(shù)據(jù)信息
4)安全權:采取負責的措施保護個人信息免受丟失、濫用、未授權獲取、泄露、篡改、毀壞的威脅
5)數(shù)據(jù)完整性:確保個人信息在最終用途、合理防護方面的可靠性,確保信息精確、完整、無誤。
6)可查詢:提供本人查詢個人信息的途徑
7)責任性:企業(yè)有責任遵守上述法則,并應確保合規(guī)的機制。
大數(shù)據(jù)企業(yè)面對的數(shù)據(jù)分為公開數(shù)據(jù),授權數(shù)據(jù),隱私數(shù)據(jù)。公開數(shù)據(jù)來源于公共媒體因此可以無須強調(diào)保護,授權數(shù)據(jù)來源于數(shù)據(jù)收集過程中,客戶對企業(yè)的授權,需要依據(jù)簽訂的協(xié)議使用范圍來使用,不能過越權進行數(shù)據(jù)轉讓和販賣,大數(shù)據(jù)企業(yè)僅能在簽署的授權范圍內(nèi)部進行使用,企業(yè)在使用大數(shù)據(jù)時盡量使用分類數(shù)據(jù)、群體數(shù)據(jù)、趨勢數(shù)據(jù)、統(tǒng)計數(shù)據(jù)。不要使用針對個體的數(shù)據(jù),同時在數(shù)據(jù)分析是需要注意關注隱私數(shù)據(jù)保護。大數(shù)據(jù)企業(yè)在利用隱私數(shù)據(jù)時將要特別注意對其的保護,即使在客戶授權的前提下,也要注意數(shù)據(jù)的使用場合和揭示方式,不要向外泄露受保護的PII信息。
大數(shù)據(jù)隱私保護應該從企業(yè)法律意識、國家法律法規(guī)、數(shù)據(jù)保護技術等幾個方面入手進行大數(shù)據(jù)隱私保護,其是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的一個重要前提,解決了大數(shù)據(jù)隱私保護問題才能打開大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的空間,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展才有明確的未來。
七、大數(shù)據(jù)的風險控制
任何一中事物出現(xiàn)后都會有其有利的一個方面,也有其不利的方面,片面的夸大了它的作用而不談它的弊端,這就是傳銷了。大數(shù)據(jù)和其他的新鮮事物一樣,它不是神,不可能天生沒有缺陷,不可能天生沒有風險,我們要正視大數(shù)據(jù)時代的弊端,在享受大數(shù)據(jù)時代的紅利時,希望能夠認清其弊端,不要成為數(shù)據(jù)的奴隸,不要成為Matrix的營養(yǎng)品。
大數(shù)據(jù)本質(zhì)就像計算機和互聯(lián)網(wǎng)一樣是人類的工具,能有限地幫助人們但是不能代替人們思考和做決策。大數(shù)據(jù)不能幫助人類解決生理需要、情感溝通、心理安慰的問題,大數(shù)據(jù)只是一個提高效率和輔助人類決策的工具。
我們聊一聊如何控制大數(shù)據(jù)帶來的風險。
1)數(shù)據(jù)不能起到?jīng)Q定作用,僅應提供輔助決策。決策應來源于人類集體智慧和決策層,千萬不能讓數(shù)據(jù)或人工智能指揮一切。
2)數(shù)據(jù)報表不能代替人類思考,有些因素沒有辦法進行量化,有些因素數(shù)據(jù)報表無法提供信息,重大決定人類必需綜進行綜合考慮。
3)利用數(shù)據(jù)進行決策,應考慮其不良影響,顧及其他群體的利益,避免多數(shù)人暴政和少數(shù)精英獨斷專行。
4)有些領域不能過度依靠參考數(shù)據(jù),還應該從尊重生命出發(fā)如食品安全管理問題等。
5)應建立數(shù)據(jù)分析和決策之間的防火墻,避免出現(xiàn)黑客帝國的場景。
大數(shù)據(jù)應用、大數(shù)據(jù)思維歸根到底還是商業(yè)思維的具體體現(xiàn),同樣的大數(shù)據(jù)在不同的人眼里,會表現(xiàn)出不同的表現(xiàn)形式,同樣一組數(shù)據(jù),通過不同的緯度看將會產(chǎn)生不同的商業(yè)結果。因此大數(shù)據(jù)僅是工具,其不能代替人類自身對社會的理解,以及人類社會自身的道德約束等。
八、中國的大數(shù)據(jù)之路任重而道遠
中國目前的大數(shù)據(jù)應用環(huán)境和技術相對于美國而言,在整體技術水平、應用環(huán)境、國民意識、商業(yè)環(huán)境、技術廠商、技術平臺上面相差超過5年左右。在大數(shù)據(jù)應用的國家戰(zhàn)略層面落后的也較多。
2012年3月,美國奧巴馬政府宣布推出“大數(shù)據(jù)的研究和發(fā)展計劃”。該計劃涉及美國國家科學基金、美國國家衛(wèi)生研究院、美國能源部、美國國防部、美國國防部高級研究計劃局、美國地質(zhì)勘探局等6個聯(lián)邦政府部門,承諾將投資兩億多美元,大力推動和改善與大數(shù)據(jù)相關的收集、組織和分析工具及技術,以推進從大量的、復雜的數(shù)據(jù)集合中獲取知識和洞見的能力。美國奧巴馬政府宣布投資大數(shù)據(jù)領域,是大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)正式提升到戰(zhàn)略層面,大數(shù)據(jù)在經(jīng)濟社會各個層面、各個領域都開始受到重視。
2014年從“兩會”的提案、議案看,很多人建議將大數(shù)據(jù)業(yè)務上升為國家戰(zhàn)略,互聯(lián)網(wǎng)領軍人物李彥宏在政協(xié)記者會上表示,政府應該把更多和人民生活有關的數(shù)據(jù)資料,公開地放到網(wǎng)絡上;雷軍則直接建議將大數(shù)據(jù)納入國家戰(zhàn)略,推動大數(shù)據(jù)切實地被用起來;科大訊飛劉慶峰建議國家建設聲紋數(shù)據(jù)庫進行大數(shù)據(jù)反恐。張近東、馬化騰、楊元慶的提案也與數(shù)據(jù)應用有著緊密聯(lián)系。但是在中國大數(shù)據(jù)國家戰(zhàn)略和大數(shù)據(jù)產(chǎn)業(yè)發(fā)展發(fā)面還沒有一個清晰的藍圖。
目前了解到的信息是上海政府計劃建設大數(shù)據(jù)產(chǎn)業(yè)園,通過政府自身投資來建立大數(shù)據(jù)平臺,吸引中小企業(yè)將信息系統(tǒng)及數(shù)據(jù)放到政府主導的數(shù)據(jù)平臺上,政府將利用此平臺來挖掘數(shù)據(jù)信息,提供數(shù)據(jù)信息報告。另外一個大數(shù)據(jù)應用是地方政府請一些大數(shù)據(jù)公司來開發(fā)輿情檢測系統(tǒng),及時了解社會輿論。無論是大數(shù)據(jù)產(chǎn)業(yè)園還是輿情監(jiān)控。我個人認為沒有抓住大數(shù)據(jù)優(yōu)勢的核心,大數(shù)據(jù)產(chǎn)業(yè)園的管理機制和創(chuàng)新動力不足,無法發(fā)揮大數(shù)據(jù)計算的優(yōu)勢,反而浪費了大量的投資,效率較低。輿情監(jiān)控本身就無法發(fā)揮大數(shù)據(jù)的商業(yè)應用優(yōu)勢,反而阻礙大數(shù)據(jù)產(chǎn)業(yè)的商業(yè)應用。我們應該提供大數(shù)據(jù)產(chǎn)業(yè)優(yōu)惠政策,在資金、場地、稅收、科研方面提供外部支持,讓企業(yè)自身投入到大數(shù)據(jù)產(chǎn)業(yè)建設之中,從企業(yè)自身商業(yè)需求出發(fā),投入資金來發(fā)展大數(shù)據(jù)產(chǎn)業(yè)。
IBM現(xiàn)已擁有全世界最先進的大數(shù)據(jù)和分析技術能力,其擁有400多位IBM數(shù)學家。2013年IBM就成功的申請了1500項大數(shù)據(jù)與分析的相關專利,自2005年開始對收購和研發(fā)投資達240億美元,2013年IBM大數(shù)據(jù)分析領域營收高達160億美金。美國的通用電氣公司投入了15億美金建立了軟件分析公司,雇用了400名數(shù)據(jù)科學家進行大數(shù)據(jù)產(chǎn)業(yè)研究。但是在中國除了我們熟知的BAT涉及大數(shù)據(jù)產(chǎn)業(yè)外,知名的大數(shù)據(jù)產(chǎn)業(yè)企業(yè)就非常少,市場機會巨大。北京騰云天下科技有限公司(TalkingData)是為數(shù)不多的大數(shù)據(jù)領先公司,其既有大數(shù)據(jù)又有大數(shù)據(jù)技術平臺,其目前是國內(nèi)最大的第三方移動大數(shù)據(jù)平臺,旗下?lián)碛斜姸鄰V受歡迎的移動端數(shù)據(jù)統(tǒng)計、分析、監(jiān)測產(chǎn)品。TalkingData與國內(nèi)眾多應用分發(fā)平臺、渠道、廣告聯(lián)盟保持著緊密的合作關系,三年來積累了大量的移動互聯(lián)網(wǎng)用戶行為、興趣數(shù)據(jù)。中國銀聯(lián)、招商銀行、聚美優(yōu)品等企業(yè),正在使TalkingData提供的數(shù)據(jù)服務。
最后總結一下,大數(shù)據(jù)時代將會給人類社會帶來巨大變化,它是一個好的工具,就像計算機一樣,幫助人們提升社會生產(chǎn)效率,了解事物真相,認識客觀規(guī)律。重要的大數(shù)據(jù)可以幫助政府和企業(yè)進行科學決策,降低決策風險,加快進入智慧社會。