午夜精品久久久久久,性xxxxfreexxxxx欧美牲交

　　1.引言

　　當(dāng)今，社會信息化和網(wǎng)絡(luò)化的發(fā)展導(dǎo)致數(shù)據(jù)爆炸式增長。據(jù)統(tǒng)計，平均每秒有200萬用戶在使用谷歌搜索，F(xiàn)acebook用戶每天共享的東西超過40億，Twitter每天處理的推特數(shù)量超過3.4億。同時，科學(xué)計算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大量數(shù)據(jù)在不斷產(chǎn)生。2012年全球信息總量已經(jīng)達(dá)到2.7 ZB，而到2015年這一數(shù)值預(yù)計會達(dá)到8 ZB。這一現(xiàn)象引發(fā)了人們的廣泛關(guān)注。在學(xué)術(shù)界，圖靈獎獲得者Jim Gray提出了科學(xué)研究的第四范式，即以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究;2008年《Nature))推出了大數(shù)據(jù)?？瘜ζ湔归_探討;2011年《Science》也推出類似的數(shù)據(jù)處理?？?。IT產(chǎn)業(yè)界行動更為積極，持續(xù)關(guān)注數(shù)據(jù)再利用，挖掘大數(shù)據(jù)的潛在價值。目前，大數(shù)據(jù)已成為繼云計算之后信息技術(shù)領(lǐng)域的另一個信息產(chǎn)業(yè)增長點。據(jù)Gartner預(yù)測，2013年大數(shù)據(jù)將帶動全球IT支出340億美元，到2016年全球在大數(shù)據(jù)方面的總花費將達(dá)到2320億美元。Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢之一。不僅如此，作為國家和社會的主要管理者，各國政府也是大數(shù)據(jù)技術(shù)推廣的主要推動者。2009年3月美國政府上線了data.gov網(wǎng)站，向公眾開放政府所擁有的公共數(shù)據(jù)。隨后，英國、澳大利亞等政府也開始了大數(shù)據(jù)開放的進(jìn)程，截至目前，全世界已經(jīng)正式有35個國家和地區(qū)構(gòu)建了自己的數(shù)據(jù)開放門戶網(wǎng)站。美國政府聯(lián)合6個部門宣布了2億美元的“大數(shù)據(jù)研究與發(fā)展計劃”。在我國，2012年中國通信學(xué)會、中國計算機(jī)學(xué)會等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會，為我國大數(shù)據(jù)應(yīng)用和發(fā)展提供學(xué)術(shù)咨詢。

　　目前大數(shù)據(jù)的發(fā)展仍然面臨著許多問題，安全與隱私問題是人們公認(rèn)的關(guān)鍵問題之一。當(dāng)前，人們在互聯(lián)網(wǎng)上的一言一行都掌握在互聯(lián)網(wǎng)商家手中，包括購物習(xí)慣、好友聯(lián)絡(luò)情況、閱讀習(xí)慣、檢索習(xí)慣等等。多項實際案例說明，即使無害的數(shù)據(jù)被大量收集后，也會暴露個人隱私。事實上，大數(shù)據(jù)安全含義更為廣泛，人們面臨的威脅并不僅限于個人隱私泄漏。與其它信息一樣，大數(shù)據(jù)在存儲、處理、傳輸?shù)冗^程中面臨諸多安全風(fēng)險，具有數(shù)據(jù)安全與隱私保護(hù)需求。而實現(xiàn)大數(shù)據(jù)安全與隱私保護(hù)，較以往其它安全問題(如云計算中的數(shù)據(jù)安全等)更為棘手。這是因為在云計算中，雖然服務(wù)提供商控制了數(shù)據(jù)的存儲與運行環(huán)境，但是用戶仍然有些辦法保護(hù)自己的數(shù)據(jù)，例如通過密碼學(xué)的技術(shù)手段實現(xiàn)數(shù)據(jù)安全存儲與安全計算，或者通過可信計算方式實現(xiàn)運行環(huán)境安全等。而在大數(shù)據(jù)的背景下，F(xiàn)acebook等商家既是數(shù)據(jù)的生產(chǎn)者，又是數(shù)據(jù)的存儲、管理者和使用者，因此，單純通過技術(shù)手段限制商家對用戶信息的使用，實現(xiàn)用戶隱私保護(hù)是極其困難的事。

　　當(dāng)前很多組織都認(rèn)識到大數(shù)據(jù)的安全問題，并積極行動起來關(guān)注大數(shù)據(jù)安全問題。2012年云安全聯(lián)盟CSA組建了大數(shù)據(jù)工作組，旨在尋找針對數(shù)據(jù)中心安全和隱私問題的解決方案。本文在梳理大數(shù)據(jù)研究現(xiàn)狀的基礎(chǔ)上，重點分析了當(dāng)前大數(shù)據(jù)所帶來的安全挑戰(zhàn)，詳細(xì)闡述了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)的關(guān)鍵技術(shù)。需要指出的是，大數(shù)據(jù)在引人新的安全問題和挑戰(zhàn)的同時，也為信息安全領(lǐng)域帶來了新的發(fā)展契機(jī)，即基于大數(shù)據(jù)的信息安全相關(guān)技術(shù)可以反過來用于大數(shù)據(jù)的安全和隱私保護(hù)。本文在第5節(jié)對其進(jìn)行了初步分析與探討。

　　2.大數(shù)據(jù)研究概述

　　2.1 大數(shù)據(jù)來源與特征

　　普遍的觀點認(rèn)為，大數(shù)據(jù)是指規(guī)模大且復(fù)雜、以至于很難用現(xiàn)有數(shù)據(jù)庫管理工具或數(shù)據(jù)處理應(yīng)用來處理的數(shù)據(jù)集。大數(shù)據(jù)的常見特點包括大規(guī)模(volume)、高速性(velocity)和多樣性(variety)。根據(jù)來源的不同，大數(shù)據(jù)大致可分為如下幾類：

　　(1)來自于人。人們在互聯(lián)網(wǎng)活動以及使用移動互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù)，包括文字、圖片、視頻等信息;

　　(2)來自于機(jī)。各類計算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù)，以文件、數(shù)據(jù)庫、多媒體等形式存在，也包括審計、日志等自動生成的信息;

　　(3)來自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項特征值、天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。[page]

　　2.2 大數(shù)據(jù)分析目標(biāo)

　　目前大數(shù)據(jù)分析應(yīng)用于科學(xué)、醫(yī)藥、商業(yè)等各個領(lǐng)域，用途差異巨大。但其目標(biāo)可以歸納為如下幾類：

　　(1)獲得知識與推測趨勢

　　人們進(jìn)行數(shù)據(jù)分析由來已久，最初且最重要的目的就是獲得知識、利用知識。由于大數(shù)據(jù)包含大量原始、真實信息，大數(shù)據(jù)分析能夠有效地摒棄個體差異，幫助人們透過現(xiàn)象、更準(zhǔn)確地把握事物背后的規(guī)律?；谕诰虺龅闹R，可以更準(zhǔn)確地對自然或社會現(xiàn)象進(jìn)行預(yù)測。典型的案例是Google公司的Google Flu Trends網(wǎng)站。它通過統(tǒng)計人們對流感信息的搜索，查詢Google服務(wù)器日志的IP地址判定搜索來源，從而發(fā)布對世界各地流感情況的預(yù)測。又如，人們可以根據(jù)Twitter信息預(yù)測股票行情等。

　　(2)分析掌握個性化特征

　　個體活動在滿足某些群體特征的同時，也具有鮮明的個性化特征。正如“長尾理論”中那條細(xì)長的尾巴那樣，這些特征可能千差萬別。企業(yè)通過長時間、多維度的數(shù)據(jù)積累，可以分析用戶行為規(guī)律，更準(zhǔn)確地描繪其個體輪廓，為用戶提供更好的個性化產(chǎn)品和服務(wù)，以及更準(zhǔn)確的廣告推薦。例如Google通過其大數(shù)據(jù)產(chǎn)品對用戶的習(xí)慣和愛好進(jìn)行分析，幫助廣告商評估廣告活動效率，預(yù)估在未來可能存在高達(dá)到數(shù)千億美元的市場規(guī)模。

　　(3)通過分析辨識真相

　　錯誤信息不如沒有信息。由于網(wǎng)絡(luò)中信息的傳播更加便利，所以網(wǎng)絡(luò)虛假信息造成的危害也更大。例如，2013年4月24日，美聯(lián)社Twitter帳號被盜，發(fā)布虛假消息稱總統(tǒng)奧巴馬遭受恐怖襲擊受傷。雖然虛假消息在幾分鐘內(nèi)被禁止，但是仍然引發(fā)了美國股市短暫跳水。由于大數(shù)據(jù)來源廣泛及其多樣性，在一定程度上它可以幫助實現(xiàn)信息的去偽存真。目前人們開始嘗試?yán)么髷?shù)據(jù)進(jìn)行虛假信息識別。例如，社交點評類網(wǎng)站Yelp利用大數(shù)據(jù)對虛假評論進(jìn)行過濾，為用戶提供更為真實的評論信息;Yahoo和Thinkmail等利用大數(shù)據(jù)分析技術(shù)來過濾垃圾郵件。

　　2.3 大數(shù)據(jù)技術(shù)框架

　　大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。圖1是相關(guān)技術(shù)示意圖。

圖1 大數(shù)據(jù)技術(shù)架構(gòu)

　　(1)數(shù)據(jù)采集與預(yù)處理(Data Acquisition & Preparation)

　　大數(shù)據(jù)的數(shù)據(jù)源多樣化，包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此，大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理操作，為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。

　　由于大數(shù)據(jù)的來源不一，可能存在不同模式的描述，甚至存在矛盾。因此，在數(shù)據(jù)集成過程中對數(shù)據(jù)進(jìn)行清洗，以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。文獻(xiàn)中數(shù)據(jù)清洗和集成技術(shù)針對大數(shù)據(jù)的特點，提出非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的清洗以及超大規(guī)模數(shù)據(jù)的集成。

　　數(shù)據(jù)存儲與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實時性要求較高的應(yīng)用，如狀態(tài)監(jiān)控，更適合采用流處理模式，直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其它應(yīng)用則需要存儲，以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量，降低存儲成本，通常采用分布式架構(gòu)來存儲大數(shù)據(jù)。這方面有代表性的研究包括：文件系統(tǒng)GFSE、HDFS和Haystack等;NoSQL數(shù)據(jù)庫Mongodb、CouchDB、HBase、Redis、Neo4j等。

　　(2)數(shù)據(jù)分析(Data Analysis)

　　數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為3類：計算架構(gòu)、查詢與索引以及數(shù)據(jù)分析和處理。

　　在計算架構(gòu)方面，MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計算模型和框架。為了適應(yīng)一些對任務(wù)完成時間要求較高的分析需求，文獻(xiàn)對其性能進(jìn)行了優(yōu)化;文獻(xiàn)提出了一種基于MapReduce架構(gòu)的數(shù)據(jù)流分析解決方案MARISSA，使其能夠支持實時分析任務(wù);文獻(xiàn)則提出了基于時間的大數(shù)據(jù)分析方案Mastiff;文獻(xiàn)也針對廣告推送等實時性要求較高的應(yīng)用，提出了基于MapReduce的TiMR框架來進(jìn)行實時流處理。

　　在查詢與索引方面，由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)，傳統(tǒng)關(guān)系型數(shù)據(jù)庫的查詢和索引技術(shù)受到限制，而NoSQL類數(shù)據(jù)庫技術(shù)得到更多關(guān)注。例如，文獻(xiàn)提出了一個混合的數(shù)據(jù)訪問架構(gòu)HyDB以及一種并發(fā)數(shù)據(jù)查詢及優(yōu)化方法。文獻(xiàn)對key-value類型數(shù)據(jù)庫的查詢進(jìn)行了性能優(yōu)化。

　　在數(shù)據(jù)分析與處理方面，主要涉及的技術(shù)包括語義分析與數(shù)據(jù)挖掘等。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點，所以對數(shù)據(jù)進(jìn)行語義分析時，就較難統(tǒng)一術(shù)語進(jìn)而挖掘信息。文獻(xiàn)針對大數(shù)據(jù)環(huán)境，提出了一種解決術(shù)語變異問題的高效術(shù)語標(biāo)準(zhǔn)化方法。文獻(xiàn)對語義分析中語義本體的異質(zhì)性展開了研究。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)主要針對結(jié)構(gòu)化數(shù)據(jù)，因此迫切需要對非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)展開研究。文獻(xiàn)提出了一種針對圖片文件的挖掘技術(shù)，文獻(xiàn)提出了一種大規(guī)模TEXT文件的檢索和挖掘技術(shù)。[page]

　　(3)數(shù)據(jù)解釋(Data Interpretation)

　　數(shù)據(jù)解釋旨在更好地支持用戶對數(shù)據(jù)分析結(jié)果的使用，涉及的主要技術(shù)為可視化和人機(jī)交互。目前已經(jīng)有了一些針對大規(guī)模數(shù)據(jù)的可視化研究，通過數(shù)據(jù)投影、維度降解或顯示墻等方法來解決大規(guī)模數(shù)據(jù)的顯示問題。由于人類的視覺敏感度限制了更大屏幕顯示的有效性，以人為中心的人機(jī)交互設(shè)計也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。

　　(4)其它支撐技術(shù)(Data Transmission & Virtual Cluster)

　　雖然大數(shù)據(jù)應(yīng)用強(qiáng)調(diào)以數(shù)據(jù)為中心，將計算推送到數(shù)據(jù)上執(zhí)行，但是在整個處理過程中，數(shù)據(jù)的傳輸仍然是必不可少的，例如一些科學(xué)觀測數(shù)據(jù)從觀測點向數(shù)據(jù)中心的傳輸?shù)取Ｎ墨I(xiàn)針對大數(shù)據(jù)特征研究高效傳輸架構(gòu)和協(xié)議。

　　此外，由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點，人們在大數(shù)據(jù)分析時可以選擇更加方便的虛擬集群來完成各項處理任務(wù)。因此需要針對大數(shù)據(jù)應(yīng)用展開的虛擬機(jī)集群優(yōu)化研究。

標(biāo)簽
大數(shù)據(jù)

責(zé)任編輯：admin

關(guān)注國脈電子政務(wù)網(wǎng)，政府CIO的思想陣地與交流平臺，5000位政府CIO在這里讀懂“互聯(lián)網(wǎng)+政務(wù)”

亚洲.欧美.在线视频,天天色影网,色综合久久中文综合网,香港三级精品三级在线专区,亚洲av电影,av天堂

大數(shù)據(jù)安全與隱私保護(hù) 數(shù)據(jù)分析是核心流程

熱門標(biāo)簽

推薦閱讀

國脈智庫丨31省份數(shù)字政府建設(shè)要求及2023年重點任務(wù)匯總

最全丨31省份2023年政府工作報告最新出爐營商環(huán)境工作目標(biāo)及重點任務(wù)匯總

國脈智庫丨2022年數(shù)字政府十大事件

國脈智庫 | 數(shù)字化轉(zhuǎn)型：組織智慧再造之旅

鄭愛軍：數(shù)據(jù)賦能營商環(huán)境優(yōu)化 ——惠企政策一次辦實踐

謝海艷：數(shù)據(jù)和事項最小顆粒度梳理探究——基于數(shù)據(jù)共享的“最多跑一次”

汪玉凱：數(shù)字化引領(lǐng)政府治理現(xiàn)代化——四中全會解讀

第二屆(2019)中國營商環(huán)境特色50強(qiáng)評選結(jié)果在京發(fā)布

徐穎：政府?dāng)?shù)字化轉(zhuǎn)型的浙江實踐

國脈智庫丨賦能：數(shù)字化轉(zhuǎn)型價值起點

關(guān)注微信