當(dāng)今,社會信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長。據(jù)統(tǒng)計,平均每秒有200萬用戶在使用谷歌搜索,F(xiàn)acebook用戶每天共享的東西超過40億,Twitter每天處理的推特數(shù)量超過3.4億。同時,科學(xué)計算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全球信息總量已經(jīng)達(dá)到2.7 ZB,而到2015年這一數(shù)值預(yù)計會達(dá)到8 ZB。這一現(xiàn)象引發(fā)了人們的廣泛關(guān)注。在學(xué)術(shù)界,圖靈獎獲得者Jim Gray提出了科學(xué)研究的第四范式,即以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究;2008年《Nature))推出了大數(shù)據(jù)??瘜ζ湔归_探討;2011年《Science》也推出類似的數(shù)據(jù)處理???。IT產(chǎn)業(yè)界行動更為積極,持續(xù)關(guān)注數(shù)據(jù)再利用,挖掘大數(shù)據(jù)的潛在價值。目前,大數(shù)據(jù)已成為繼云計算之后信息技術(shù)領(lǐng)域的另一個信息產(chǎn)業(yè)增長點。據(jù)Gartner預(yù)測,2013年大數(shù)據(jù)將帶動全球IT支出340億美元,到2016年全球在大數(shù)據(jù)方面的總花費將達(dá)到2320億美元。Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢之一。不僅如此,作為國家和社會的主要管理者,各國政府也是大數(shù)據(jù)技術(shù)推廣的主要推動者。2009年3月美國政府上線了data.gov網(wǎng)站,向公眾開放政府所擁有的公共數(shù)據(jù)。隨后,英國、澳大利亞等政府也開始了大數(shù)據(jù)開放的進(jìn)程,截至目前,全世界已經(jīng)正式有35個國家和地區(qū)構(gòu)建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國政府聯(lián)合6個部門宣布了2億美元的“大數(shù)據(jù)研究與發(fā)展計劃”。在我國,2012年中國通信學(xué)會、中國計算機(jī)學(xué)會等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會,為我國大數(shù)據(jù)應(yīng)用和發(fā)展提供學(xué)術(shù)咨詢。
目前大數(shù)據(jù)的發(fā)展仍然面臨著許多問題,安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。當(dāng)前,人們在互聯(lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中,包括購物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等等。多項實際案例說明,即使無害的數(shù)據(jù)被大量收集后,也會暴露個人隱私。事實上,大數(shù)據(jù)安全含義更為廣泛,人們面臨的威脅并不僅限于個人隱私泄漏。與其它信息一樣,大數(shù)據(jù)在存儲、處理、傳輸?shù)冗^程中面臨諸多安全風(fēng)險,具有數(shù)據(jù)安全與隱私保護(hù)需求。而實現(xiàn)大數(shù)據(jù)安全與隱私保護(hù),較以往其它安全問題(如云計算中的數(shù)據(jù)安全等)更為棘手。這是因為在云計算中,雖然服務(wù)提供商控制了數(shù)據(jù)的存儲與運行環(huán)境,但是用戶仍然有些辦法保護(hù)自己的數(shù)據(jù),例如通過密碼學(xué)的技術(shù)手段實現(xiàn)數(shù)據(jù)安全存儲與安全計算,或者通過可信計算方式實現(xiàn)運行環(huán)境安全等。而在大數(shù)據(jù)的背景下,F(xiàn)acebook等商家既是數(shù)據(jù)的生產(chǎn)者,又是數(shù)據(jù)的存儲、管理者和使用者,因此,單純通過技術(shù)手段限制商家對用戶信息的使用,實現(xiàn)用戶隱私保護(hù)是極其困難的事。
當(dāng)前很多組織都認(rèn)識到大數(shù)據(jù)的安全問題,并積極行動起來關(guān)注大數(shù)據(jù)安全問題。2012年云安全聯(lián)盟CSA組建了大數(shù)據(jù)工作組,旨在尋找針對數(shù)據(jù)中心安全和隱私問題的解決方案。本文在梳理大數(shù)據(jù)研究現(xiàn)狀的基礎(chǔ)上,重點分析了當(dāng)前大數(shù)據(jù)所帶來的安全挑戰(zhàn),詳細(xì)闡述了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)的關(guān)鍵技術(shù)。需要指出的是,大數(shù)據(jù)在引人新的安全問題和挑戰(zhàn)的同時,也為信息安全領(lǐng)域帶來了新的發(fā)展契機(jī),即基于大數(shù)據(jù)的信息安全相關(guān)技術(shù)可以反過來用于大數(shù)據(jù)的安全和隱私保護(hù)。本文在第5節(jié)對其進(jìn)行了初步分析與探討。
2.大數(shù)據(jù)研究概述
2.1 大數(shù)據(jù)來源與特征
普遍的觀點認(rèn)為,大數(shù)據(jù)是指規(guī)模大且復(fù)雜、以至于很難用現(xiàn)有數(shù)據(jù)庫管理工具或數(shù)據(jù)處理應(yīng)用來處理的數(shù)據(jù)集。大數(shù)據(jù)的常見特點包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同,大數(shù)據(jù)大致可分為如下幾類:
(1)來自于人。人們在互聯(lián)網(wǎng)活動以及使用移動互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù),包括文字、圖片、視頻等信息;
(2)來自于機(jī)。各類計算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù),以文件、數(shù)據(jù)庫、多媒體等形式存在,也包括審計、日志等自動生成的信息;
(3)來自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項特征值、天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。[page]
2.2 大數(shù)據(jù)分析目標(biāo)
目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個領(lǐng)域,用途差異巨大。但其目標(biāo)可以歸納為如下幾類:
(1)獲得知識與推測趨勢
人們進(jìn)行數(shù)據(jù)分析由來已久,最初且最重要的目的就是獲得知識、利用知識。由于大數(shù)據(jù)包含大量原始、真實信息,大數(shù)據(jù)分析能夠有效地摒棄個體差異,幫助人們透過現(xiàn)象、更準(zhǔn)確地把握事物背后的規(guī)律?;谕诰虺龅闹R,可以更準(zhǔn)確地對自然或社會現(xiàn)象進(jìn)行預(yù)測。典型的案例是Google公司的Google Flu Trends網(wǎng)站。它通過統(tǒng)計人們對流感信息的搜索,查詢Google服務(wù)器日志的IP地址判定搜索來源,從而發(fā)布對世界各地流感情況的預(yù)測。又如,人們可以根據(jù)Twitter信息預(yù)測股票行情等。
(2)分析掌握個性化特征
個體活動在滿足某些群體特征的同時,也具有鮮明的個性化特征。正如“長尾理論”中那條細(xì)長的尾巴那樣,這些特征可能千差萬別。企業(yè)通過長時間、多維度的數(shù)據(jù)積累,可以分析用戶行為規(guī)律,更準(zhǔn)確地描繪其個體輪廓,為用戶提供更好的個性化產(chǎn)品和服務(wù),以及更準(zhǔn)確的廣告推薦。例如Google通過其大數(shù)據(jù)產(chǎn)品對用戶的習(xí)慣和愛好進(jìn)行分析,幫助廣告商評估廣告活動效率,預(yù)估在未來可能存在高達(dá)到數(shù)千億美元的市場規(guī)模。
(3)通過分析辨識真相
錯誤信息不如沒有信息。由于網(wǎng)絡(luò)中信息的傳播更加便利,所以網(wǎng)絡(luò)虛假信息造成的危害也更大。例如,2013年4月24日,美聯(lián)社Twitter帳號被盜,發(fā)布虛假消息稱總統(tǒng)奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內(nèi)被禁止,但是仍然引發(fā)了美國股市短暫跳水。由于大數(shù)據(jù)來源廣泛及其多樣性,在一定程度上它可以幫助實現(xiàn)信息的去偽存真。目前人們開始嘗試?yán)么髷?shù)據(jù)進(jìn)行虛假信息識別。例如,社交點評類網(wǎng)站Yelp利用大數(shù)據(jù)對虛假評論進(jìn)行過濾,為用戶提供更為真實的評論信息;Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。
2.3 大數(shù)據(jù)技術(shù)框架
大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。圖1是相關(guān)技術(shù)示意圖。
圖1 大數(shù)據(jù)技術(shù)架構(gòu)
(1)數(shù)據(jù)采集與預(yù)處理(Data Acquisition & Preparation)
大數(shù)據(jù)的數(shù)據(jù)源多樣化,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此,大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理操作,為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。
由于大數(shù)據(jù)的來源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數(shù)據(jù)集成過程中對數(shù)據(jù)進(jìn)行清洗,以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。文獻(xiàn)中數(shù)據(jù)清洗和集成技術(shù)針對大數(shù)據(jù)的特點,提出非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的清洗以及超大規(guī)模數(shù)據(jù)的集成。
數(shù)據(jù)存儲與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實時性要求較高的應(yīng)用,如狀態(tài)監(jiān)控,更適合采用流處理模式,直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其它應(yīng)用則需要存儲,以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量,降低存儲成本,通常采用分布式架構(gòu)來存儲大數(shù)據(jù)。這方面有代表性的研究包括:文件系統(tǒng)GFSE、HDFS和Haystack等;NoSQL數(shù)據(jù)庫Mongodb、CouchDB、HBase、Redis、Neo4j等。
(2)數(shù)據(jù)分析(Data Analysis)
數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為3類:計算架構(gòu)、查詢與索引以及數(shù)據(jù)分析和處理。
在計算架構(gòu)方面,MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計算模型和框架。為了適應(yīng)一些對任務(wù)完成時間要求較高的分析需求,文獻(xiàn)對其性能進(jìn)行了優(yōu)化;文獻(xiàn)提出了一種基于MapReduce架構(gòu)的數(shù)據(jù)流分析解決方案MARISSA,使其能夠支持實時分析任務(wù);文獻(xiàn)則提出了基于時間的大數(shù)據(jù)分析方案Mastiff;文獻(xiàn)也針對廣告推送等實時性要求較高的應(yīng)用,提出了基于MapReduce的TiMR框架來進(jìn)行實時流處理。
在查詢與索引方面,由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫的查詢和索引技術(shù)受到限制,而NoSQL類數(shù)據(jù)庫技術(shù)得到更多關(guān)注。例如,文獻(xiàn)提出了一個混合的數(shù)據(jù)訪問架構(gòu)HyDB以及一種并發(fā)數(shù)據(jù)查詢及優(yōu)化方法。文獻(xiàn)對key-value類型數(shù)據(jù)庫的查詢進(jìn)行了性能優(yōu)化。
在數(shù)據(jù)分析與處理方面,主要涉及的技術(shù)包括語義分析與數(shù)據(jù)挖掘等。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點,所以對數(shù)據(jù)進(jìn)行語義分析時,就較難統(tǒng)一術(shù)語進(jìn)而挖掘信息。文獻(xiàn)針對大數(shù)據(jù)環(huán)境,提出了一種解決術(shù)語變異問題的高效術(shù)語標(biāo)準(zhǔn)化方法。文獻(xiàn)對語義分析中語義本體的異質(zhì)性展開了研究。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對結(jié)構(gòu)化數(shù)據(jù),因此迫切需要對非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)展開研究。文獻(xiàn)提出了一種針對圖片文件的挖掘技術(shù),文獻(xiàn)提出了一種大規(guī)模TEXT文件的檢索和挖掘技術(shù)。[page]
(3)數(shù)據(jù)解釋(Data Interpretation)數(shù)據(jù)解釋旨在更好地支持用戶對數(shù)據(jù)分析結(jié)果的使用,涉及的主要技術(shù)為可視化和人機(jī)交互。目前已經(jīng)有了一些針對大規(guī)模數(shù)據(jù)的可視化研究,通過數(shù)據(jù)投影、維度降解或顯示墻等方法來解決大規(guī)模數(shù)據(jù)的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性,以人為中心的人機(jī)交互設(shè)計也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。
(4)其它支撐技術(shù)(Data Transmission & Virtual Cluster)
雖然大數(shù)據(jù)應(yīng)用強(qiáng)調(diào)以數(shù)據(jù)為中心,將計算推送到數(shù)據(jù)上執(zhí)行,但是在整個處理過程中,數(shù)據(jù)的傳輸仍然是必不可少的,例如一些科學(xué)觀測數(shù)據(jù)從觀測點向數(shù)據(jù)中心的傳輸?shù)取N墨I(xiàn)針對大數(shù)據(jù)特征研究高效傳輸架構(gòu)和協(xié)議。
此外,由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點,人們在大數(shù)據(jù)分析時可以選擇更加方便的虛擬集群來完成各項處理任務(wù)。因此需要針對大數(shù)據(jù)應(yīng)用展開的虛擬機(jī)集群優(yōu)化研究。