1  引言

  數(shù)據(jù)已經(jīng)成為國(guó)家基礎(chǔ)性戰(zhàn)略資源,推動(dòng)數(shù)據(jù)資源開放共享是國(guó)家《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》的核心內(nèi)容。政府和公共數(shù)據(jù)資源的開放共享不僅是構(gòu)建一個(gè)透明的政府,更重要的是創(chuàng)造新興戰(zhàn)略產(chǎn)業(yè)(數(shù)據(jù)產(chǎn)業(yè)),推進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),成為驅(qū)動(dòng)創(chuàng)新的主要因素。但在實(shí)施過(guò)程中,數(shù)據(jù)開放共享面臨著“數(shù)據(jù)擁有者不愿、不敢、不會(huì)開放共享”的問(wèn)題。由于數(shù)據(jù)可以以極低成本復(fù)制和傳播(復(fù)制一份數(shù)據(jù)的成本遠(yuǎn)遠(yuǎn)低于生產(chǎn)一份數(shù)據(jù)的成本),加之?dāng)?shù)據(jù)資源的戰(zhàn)略性和商業(yè)價(jià)值越來(lái)越顯現(xiàn),這就導(dǎo)致生產(chǎn)數(shù)據(jù)的意愿遠(yuǎn)遠(yuǎn)低于復(fù)制數(shù)據(jù)的意愿,因而呼吁數(shù)據(jù)開放的人越來(lái)越多;數(shù)據(jù)生產(chǎn)者越來(lái)越不愿意將其擁有的數(shù)據(jù)開放出來(lái)。因此,數(shù)據(jù)資源的開放變得越來(lái)越難以實(shí)現(xiàn)。事物的價(jià)值源于稀缺性,由于數(shù)據(jù)可以幾乎零成本地復(fù)制和傳播,所以,數(shù)據(jù)開放意味著數(shù)據(jù)資源的稀缺性喪失,從而喪失其原有的價(jià)值,這是不愿意開放數(shù)據(jù)的根本原因。因此,如何既開放數(shù)據(jù)又保持?jǐn)?shù)據(jù)資源的稀缺性,是一個(gè)亟待解決的重大問(wèn)題。本文圍繞該重大問(wèn)題,探索數(shù)據(jù)開放模式,提出數(shù)據(jù)自治開放模式。

  開放數(shù)據(jù)是指數(shù)據(jù)免費(fèi)開放給每一個(gè)希望使用數(shù)據(jù)的人,主要是指政府和公共數(shù)據(jù)資源應(yīng)該開放給公眾,使公共數(shù)據(jù)能被任何人、在任何時(shí)間和任何地點(diǎn)自由利用、再利用和分發(fā);數(shù)據(jù)共享是指對(duì)數(shù)據(jù)使用對(duì)象、使用時(shí)間和使用地點(diǎn)加以限制,主要是對(duì)使用對(duì)象進(jìn)行限制,即將數(shù)據(jù)開放給特定對(duì)象,只有特定對(duì)象在特定的時(shí)間、地點(diǎn)使用指定的數(shù)據(jù),可以理解為開放數(shù)據(jù)的限制版;數(shù)據(jù)交易是指數(shù)據(jù)擁有者依據(jù)法律在市場(chǎng)交易規(guī)則下進(jìn)行自由交易??傮w而言,開放數(shù)據(jù)、數(shù)據(jù)共享和數(shù)據(jù)交易都是數(shù)據(jù)擁有者將數(shù)據(jù)開放給數(shù)據(jù)使用者,只是在范圍、對(duì)象、是否收費(fèi)等方面有所不同,三者面臨的核心問(wèn)題都是“數(shù)據(jù)如何治理”,具體說(shuō)就是“如何控制數(shù)據(jù)使用者傳播或?yàn)E用數(shù)據(jù)”。開放數(shù)據(jù)模式不對(duì)開放出去的數(shù)據(jù)進(jìn)行治理 ;數(shù)據(jù)共享模式則由共享圈共同治理數(shù)據(jù),但共享圈約束有限,數(shù)據(jù)常常流出共享圈而造成事實(shí)上的開放數(shù)據(jù);數(shù)據(jù)交易的數(shù)據(jù)治理目前還沒有具體做法。因此,為了方便敘述,將開放數(shù)據(jù)、數(shù)據(jù)共享和數(shù)據(jù)交易統(tǒng)稱為“數(shù)據(jù)開放”。

  當(dāng)前,絕大部分?jǐn)?shù)據(jù)資源都還處在封閉不開放的狀態(tài),數(shù)據(jù)完全由數(shù)據(jù)擁有者治理。擁有者盡量保護(hù)系統(tǒng)數(shù)據(jù)不受外界侵害,不對(duì)外界開放,即數(shù)據(jù)是自治封閉的?,F(xiàn)有的數(shù)據(jù)資源管理技術(shù)(數(shù)據(jù)庫(kù)管理系統(tǒng)、文件系統(tǒng))和應(yīng)用軟件技術(shù)都支持這種數(shù)據(jù)自治封閉模式。數(shù)據(jù)自治封閉模式的問(wèn)題是數(shù)據(jù)資源只能由數(shù)據(jù)擁有者使用,沒有發(fā)揮數(shù)據(jù)資源應(yīng)有的價(jià)值。要更大程度地開發(fā)利用數(shù)據(jù),就需要將數(shù)據(jù)資源開放出來(lái)。然而,數(shù)據(jù)會(huì)被怎樣開發(fā)利用事先可能是不知道的,使用數(shù)據(jù)的軟件也是事先不知道的、基本外部的、數(shù)量無(wú)限的、安全不可控的、隱私不可控的?,F(xiàn)有的數(shù)據(jù)庫(kù)管理系統(tǒng)軟件根本無(wú)法處理數(shù)據(jù)開放的應(yīng)用需求,因此,需要探索新型的數(shù)據(jù)資源管理技術(shù)和數(shù)據(jù)開放模式。

  本文提出的“數(shù)據(jù)自治開放”是指數(shù)據(jù)擁有者在法律框架下對(duì)數(shù)據(jù)進(jìn)行自行確權(quán)和管理、自行制定開放規(guī)則(即數(shù)據(jù)自治),然后將數(shù)據(jù)開放給使用者,包括上傳到數(shù)據(jù)應(yīng)用軟件使用數(shù)據(jù)和下載數(shù)據(jù)到使用者的設(shè)備中(使用者沒有數(shù)據(jù)治理權(quán))。

  數(shù)據(jù)自治開放模式有望成為數(shù)據(jù)開放的基本模式,是政府?dāng)?shù)據(jù)開放共享、企業(yè)及個(gè)人數(shù)據(jù)交易、國(guó)家數(shù)據(jù)主權(quán)實(shí)現(xiàn)的一種可行方法。

  2  數(shù)據(jù)資源開放與稀缺性的矛盾

  數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,而且其重要性越來(lái)越顯現(xiàn),在21世紀(jì)有可能超過(guò)石油、煤炭、礦產(chǎn),成為最重要的人類資源。提高數(shù)據(jù)資源開發(fā)利用水平、保護(hù)國(guó)家的戰(zhàn)略資源是增強(qiáng)我國(guó)綜合國(guó)力和國(guó)際競(jìng)爭(zhēng)力的必然選擇。2011年5月麥肯錫公司發(fā)布的《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》報(bào)告、2012年2月世界經(jīng)濟(jì)論壇年會(huì)發(fā)布的《大數(shù)據(jù),大影響》報(bào)告等,都突顯了大數(shù)據(jù)的價(jià)值和重要性。2012年3月美國(guó)白宮科學(xué)和技術(shù)政策辦公室發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,標(biāo)志著美國(guó)率先將大數(shù)據(jù)上升為國(guó)家戰(zhàn)略,隨后,日本、法國(guó)、澳大利亞、英國(guó)等國(guó)家也開始發(fā)布大數(shù)據(jù)國(guó)家戰(zhàn)略或計(jì)劃等。2014年和2015年,我國(guó)將大數(shù)據(jù)寫入《政府工作報(bào)告》,2015年8月19日國(guó)務(wù)院通過(guò)《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》,2015年10月26—29日中國(guó)共產(chǎn)黨第十八屆五中全會(huì)提出“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略”等,這些都表明數(shù)據(jù)已經(jīng)成為重要的戰(zhàn)略資源。

  一份數(shù)據(jù)資源的價(jià)值除了體現(xiàn)在它的內(nèi)容外,更重要的方面體現(xiàn)在它的稀缺性。內(nèi)容再重要的數(shù)據(jù)資源,如果人手一份或者隨時(shí)可以獲得,那就沒有人愿意付費(fèi)購(gòu)買,其本身的價(jià)值就難以體現(xiàn)出來(lái)。由于數(shù)據(jù)可以以極低的成本復(fù)制和傳播,所以一旦數(shù)據(jù)資源生產(chǎn)者將數(shù)據(jù)資源開放,就意味著該份數(shù)據(jù)資源可能會(huì)傳遍世界,從而喪失稀缺性。

  矛盾在于:如果不開放,則數(shù)據(jù)資源只能自用,價(jià)值發(fā)揮有限;如果開放,則數(shù)據(jù)資源可能喪失稀缺性,使數(shù)據(jù)資源生產(chǎn)者喪失利益。

  由于目前在技術(shù)上還沒有保持?jǐn)?shù)據(jù)資源稀缺性的數(shù)據(jù)開放技術(shù),所以,在實(shí)踐中,數(shù)據(jù)資源擁有方不愿開放、不會(huì)開放就成了數(shù)據(jù)開放進(jìn)程中的“攔路虎”。另外,由于政策制約,數(shù)據(jù)資源擁有方還存在不敢開放的問(wèn)題。

  不愿開放:指數(shù)據(jù)資源擁有者不愿意在沒有獲得足夠利益的情況下進(jìn)行數(shù)據(jù)開放。

  不會(huì)開放:指盡管數(shù)據(jù)持有者希望將數(shù)據(jù)資源開放出來(lái),但是由于現(xiàn)行技術(shù)并不適合數(shù)據(jù)資源開放,所以不知道如何實(shí)現(xiàn)數(shù)據(jù)資源開放。

  不敢開放:指怕承擔(dān)責(zé)任,目前的政策是“誰(shuí)有數(shù)據(jù)誰(shuí)負(fù)責(zé)”,因此,萬(wàn)一數(shù)據(jù)開放出了問(wèn)題,數(shù)據(jù)擁有部門就要承擔(dān)責(zé)任;另外,一些數(shù)據(jù)擁有者擔(dān)心數(shù)據(jù)開放后,數(shù)據(jù)資源的稀缺性會(huì)喪失。

  3  現(xiàn)有數(shù)據(jù)資源管理模式

  現(xiàn)行的數(shù)據(jù)管理技術(shù)是面向數(shù)據(jù)自治封閉的,不適合數(shù)據(jù)開放共享,急需開發(fā)面向數(shù)據(jù)開放共享的技術(shù)。

  3.1 政府開放數(shù)據(jù)

  政府開放數(shù)據(jù)的典型代表是2009年美國(guó)政府推出的網(wǎng)站www.data.gov,因此,2009年一般被認(rèn)為是數(shù)據(jù)開放元年。之前是政府信息公開,政府向公眾公開各種報(bào)告、決策結(jié)果;政府開放數(shù)據(jù)是信息公開的進(jìn)一步,即將形成報(bào)告和決策的原始數(shù)據(jù)也公開,主要內(nèi)容是政府應(yīng)該向公眾透明。2015年我國(guó)國(guó)務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》明確提出,數(shù)據(jù)開放共享主要是指政府和公共數(shù)據(jù)資源應(yīng)該開放給公眾共享。

  從國(guó)際上看,政府?dāng)?shù)據(jù)開放主要通過(guò)制定戰(zhàn)略或政策文件形式指導(dǎo)開放,又因涉及多個(gè)部門,往往由最高領(lǐng)導(dǎo)層發(fā)布,例如美國(guó)前總統(tǒng)奧巴馬在2009年和2013年兩次發(fā)布開放政府?dāng)?shù)據(jù)的行政令;英國(guó)在2010年和2011年先后兩次發(fā)布《致政府部門開放數(shù)據(jù)函》等。開放過(guò)程中,各國(guó)通常把數(shù)據(jù)作為一種國(guó)家資產(chǎn)進(jìn)行管理,要求建立相關(guān)的制度。比如,建立數(shù)據(jù)資產(chǎn)目錄,各部門需梳理數(shù)據(jù)資產(chǎn),明確各類數(shù)據(jù)的開放屬性(公開、限制公開、不公開);建立數(shù)據(jù)開放的目錄,確定哪些是已開放的,哪些是將來(lái)會(huì)開放的。并且,目錄保持持續(xù)更新和補(bǔ)充。在開放的形式上,一般采用國(guó)家統(tǒng)一的門戶網(wǎng)站形式開放數(shù)據(jù)。此外,重視建立公眾的參與和反饋機(jī)制,確保用戶的需求得到及時(shí)反饋,優(yōu)先釋放用戶需求最為迫切的數(shù)據(jù)集,并對(duì)數(shù)據(jù)開放的相關(guān)進(jìn)展進(jìn)行評(píng)估。

  從技術(shù)上來(lái)看,政府?dāng)?shù)據(jù)開放基本上都只提供數(shù)據(jù)下載服務(wù)。政府將開放的數(shù)據(jù)放在政府網(wǎng)站上,公眾可以下載需要的數(shù)據(jù)。這些數(shù)據(jù)往往不可機(jī)讀,公眾更不可能通過(guò)上傳到應(yīng)用程序來(lái)使用這些數(shù)據(jù)。這樣當(dāng)數(shù)據(jù)資源比較大的時(shí)候,這些數(shù)據(jù)就變成了不可用的數(shù)據(jù)。

  3.2 科學(xué)數(shù)據(jù)開放

  從最早推行數(shù)據(jù)資源開放的科學(xué)研究領(lǐng)域來(lái)看,科學(xué)數(shù)據(jù)表面上已經(jīng)開放了,但實(shí)際上開放程度非常有限,主要是由政府或公共資源投資的科學(xué)研究產(chǎn)生的數(shù)據(jù)的開放,并且大多集中于各自領(lǐng)域,例如地震科學(xué)、水利科學(xué)、天文學(xué)等。在我國(guó),主動(dòng)共享科學(xué)數(shù)據(jù)的研究單位和個(gè)人還比較少,大部分的數(shù)據(jù)共享活動(dòng)是通過(guò)政府投資、項(xiàng)目驅(qū)動(dòng)的形式進(jìn)行的。這些都影響了科學(xué)數(shù)據(jù)的開放共享進(jìn)展和質(zhì)量,目前為止,尚未形成完全開放的科學(xué)數(shù)據(jù)開放共享局面。

  3.3 數(shù)據(jù)自治封閉

  絕大部分?jǐn)?shù)據(jù)資源還處在封閉不開放的狀態(tài),數(shù)據(jù)完全由數(shù)據(jù)擁有者自己治理,即數(shù)據(jù)自治。從20世紀(jì)90年代信息化戰(zhàn)略開始,大部分?jǐn)?shù)據(jù)是由各類計(jì)算機(jī)應(yīng)用系統(tǒng)生產(chǎn)的,例如政府系統(tǒng)、金稅工程、教務(wù)系統(tǒng)、超市系統(tǒng)、銀行系統(tǒng)等。信息技術(shù)也只支持?jǐn)?shù)據(jù)封閉,盡量保護(hù)系統(tǒng)數(shù)據(jù)不受外界侵害,即信息安全,例如系統(tǒng)設(shè)置防火墻、登錄口令,制定用戶級(jí)別和使用系統(tǒng)的功能類別等。

  這些系統(tǒng)中的數(shù)據(jù)由系統(tǒng)擁有者自己管理,或者說(shuō)數(shù)據(jù)由數(shù)據(jù)擁有者自己管理,稱為數(shù)據(jù)自治。加之?dāng)?shù)據(jù)保持封閉不對(duì)外界開放,所以稱這類數(shù)據(jù)資源管理模式為“數(shù)據(jù)自治封閉”。

  在數(shù)據(jù)自治封閉模式中,使用數(shù)據(jù)的軟件是事先知道的、基本內(nèi)部的、數(shù)量有限的、安全可控的、隱私可控的?,F(xiàn)有的數(shù)據(jù)資源管理技術(shù)(數(shù)據(jù)庫(kù)管理系統(tǒng)、文件系統(tǒng))和應(yīng)用軟件技術(shù)也只支持?jǐn)?shù)據(jù)自治封閉模式,圖1為數(shù)據(jù)自治封閉系統(tǒng)結(jié)構(gòu)。

圖1 數(shù)據(jù)自治封閉系統(tǒng)示意

  3.4 現(xiàn)有數(shù)據(jù)資源管理模式存在的問(wèn)題

  政府?dāng)?shù)據(jù)開放模式存在的問(wèn)題是顯而易見的,即數(shù)據(jù)資源稀缺性的喪失。因此,政府?dāng)?shù)據(jù)開放的基本出發(fā)點(diǎn)是:政府?dāng)?shù)據(jù)是公共品,其權(quán)屬屬于公眾,所以要向公眾免費(fèi)開放。然而,隨著數(shù)據(jù)資源的戰(zhàn)略性和基礎(chǔ)性越來(lái)越顯現(xiàn),開放的政府?dāng)?shù)據(jù)也會(huì)被敵對(duì)國(guó)家利用,所以,政府?dāng)?shù)據(jù)開放應(yīng)該是有限的,數(shù)據(jù)主權(quán)問(wèn)題也越來(lái)越引起重視。事實(shí)上,國(guó)際上政府和公共數(shù)據(jù)資源僅開放了不到10 %,這也從另一個(gè)側(cè)面說(shuō)明政府?dāng)?shù)據(jù)開放的問(wèn)題。更嚴(yán)重的是開放數(shù)據(jù)處于不治理或者無(wú)法治理的狀態(tài)。

  數(shù)據(jù)自治封閉模式的問(wèn)題是數(shù)據(jù)資源只能由數(shù)據(jù)擁有者使用,沒有發(fā)揮數(shù)據(jù)資源應(yīng)有的價(jià)值。數(shù)據(jù)資源可以被加工再加工形成各種數(shù)據(jù)產(chǎn)品,服務(wù)于人們的生產(chǎn)和生活,從而產(chǎn)生巨大的價(jià)值。與數(shù)據(jù)自治封閉模式完全不同,如果將數(shù)據(jù)資源開放出來(lái),那么使用數(shù)據(jù)的軟件事先是不知道的、基本外部的、數(shù)量無(wú)限的、安全不可控的、隱私不可控的。數(shù)據(jù)開放模式示意如圖2所示,現(xiàn)有的數(shù)據(jù)庫(kù)管理系統(tǒng)軟件根本無(wú)法處理數(shù)據(jù)開放的應(yīng)用需求。因此,需要探索新型的數(shù)據(jù)資源管理技術(shù)。

圖2 數(shù)據(jù)開放模式示意

  4  數(shù)據(jù)自治開放模式

  數(shù)據(jù)開放是必然趨勢(shì),但需要保障在數(shù)據(jù)開放的同時(shí)又不喪失稀缺性,確保數(shù)據(jù)不流失、隱私不泄露、安全不泄密、利益得以實(shí)現(xiàn),例如醫(yī)療數(shù)據(jù)的開放。醫(yī)療數(shù)據(jù)涉及相當(dāng)比重和規(guī)模的隱私及敏感信息,例如患者個(gè)人信息、既往病史、就診記錄等,醫(yī)生個(gè)人信息、ICD編碼診斷習(xí)慣等,醫(yī)院具有優(yōu)勢(shì)的院內(nèi)制劑配方、院內(nèi)診療規(guī)范和方案、經(jīng)營(yíng)財(cái)務(wù)狀況等,甚至屬于國(guó)家政府的涉密數(shù)據(jù)(如流行病、傳染病、突發(fā)事件、重大事件等)。這直接制約了醫(yī)療數(shù)據(jù)的開放,因?yàn)闆]有合理有效的開放模式,醫(yī)療數(shù)據(jù)開放將增大醫(yī)療數(shù)據(jù)安全和隱私泄露的風(fēng)險(xiǎn)。為實(shí)現(xiàn)這一目的,數(shù)據(jù)自治開放是一種可行的方法。

  數(shù)據(jù)自治開放模式是由數(shù)據(jù)擁有者管理數(shù)據(jù),數(shù)據(jù)擁有權(quán)始終掌握在數(shù)據(jù)擁有者手里(除非自己要放棄擁有權(quán)),即數(shù)據(jù)自治;數(shù)據(jù)可以開放給指定使用者,使用者只能自己使用,不能傳播數(shù)據(jù),因此不會(huì)喪失數(shù)據(jù)的稀缺性。

  為實(shí)現(xiàn)數(shù)據(jù)自治開放,需要開發(fā)面向數(shù)據(jù)開放的數(shù)據(jù)資源管理系統(tǒng),然后將現(xiàn)有自治封閉系統(tǒng)中的數(shù)據(jù)資源重新組織到新系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)資源的自治開放(如圖3所示)。數(shù)據(jù)自治開放模式對(duì)技術(shù)提出了新挑戰(zhàn),數(shù)據(jù)自治開放技術(shù)要解決的問(wèn)題是“如何控制數(shù)據(jù)使用者傳播或?yàn)E用數(shù)據(jù)”。對(duì)應(yīng)的關(guān)鍵技術(shù)問(wèn)題如下。

圖3 面向開放的數(shù)據(jù)資源

  ● 如何做到數(shù)據(jù)既能夠自治又能夠開放?這需要研究面向自治開放的數(shù)據(jù)資源組織理論,即需要有新的數(shù)據(jù)模型來(lái)組織數(shù)據(jù)資源。外界能夠通過(guò)這個(gè)數(shù)據(jù)模型看到有哪些數(shù)據(jù)資源,以確定是否要使用這些數(shù)據(jù)資源,系統(tǒng)能夠承載使用者將數(shù)據(jù)上傳到應(yīng)用軟件,根據(jù)數(shù)據(jù)模型來(lái)使用數(shù)據(jù)。

  ● 如何保護(hù)數(shù)據(jù)稀缺性不喪失、數(shù)據(jù)安全和隱私有保障?這需要研究面向自治開放的數(shù)據(jù)安全與隱私保護(hù)理論,確保數(shù)據(jù)使用者只能按約定使用數(shù)據(jù),而不能傳播和濫用數(shù)據(jù)。

  圍繞上述問(wèn)題,重點(diǎn)研究方向包括:建立面向自治開放的數(shù)據(jù)組織模型;研究自治環(huán)境下數(shù)據(jù)使用外部軟件行為管控方法;研究開放數(shù)據(jù)權(quán)益保護(hù)方法;研發(fā)面向數(shù)據(jù)自治開放的數(shù)據(jù)資源管理系統(tǒng);在典型領(lǐng)域形成應(yīng)用開放環(huán)境,開展應(yīng)用。

  具體包括面向數(shù)據(jù)開放的數(shù)據(jù)組織模型——數(shù)據(jù)盒模型的建模技術(shù)、數(shù)據(jù)使用的“言行一致”管控技術(shù)、數(shù)據(jù)盒加密與隱私保護(hù)技術(shù)、數(shù)據(jù)站組成管理及數(shù)據(jù)站系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)技術(shù)等。最終的數(shù)據(jù)自治開放應(yīng)用系統(tǒng)的結(jié)構(gòu)如圖4所示。

圖4 數(shù)據(jù)自治開放應(yīng)用系統(tǒng)的結(jié)構(gòu)

  5  數(shù)據(jù)自治開放技術(shù)

  5.1 數(shù)據(jù)組織模型——數(shù)據(jù)盒

  如前文所述,在數(shù)據(jù)開放環(huán)境下,使用數(shù)據(jù)的軟件或程序是外部的、未知的、無(wú)限的。數(shù)據(jù)的組織既要實(shí)現(xiàn)開放使得用戶方便使用,即數(shù)據(jù)外部可見、可理解、可編程,又要防止數(shù)據(jù)權(quán)益受到侵犯,即內(nèi)部可控、可跟蹤、可撤銷。這需要有面向自治開放的數(shù)據(jù)組織模型,涉及以下關(guān)鍵技術(shù)。

 ?。?)開放數(shù)據(jù)的基本存儲(chǔ)單元建模技術(shù)

  開放數(shù)據(jù)的基本存儲(chǔ)單元是為數(shù)據(jù)使用者提供開放數(shù)據(jù)的基本組成單元,稱為“數(shù)據(jù)盒”。自治開放模式將按照數(shù)據(jù)盒的方式向數(shù)據(jù)使用者開放數(shù)據(jù),即呈現(xiàn)給用戶的是一定數(shù)量的數(shù)據(jù)盒。對(duì)用戶開放的數(shù)據(jù)是局部數(shù)據(jù),不同類型數(shù)據(jù)、不同用戶需求,數(shù)據(jù)開放的粒度是不同的。如何從數(shù)據(jù)屬性維度(橫向)和數(shù)據(jù)規(guī)模(縱向)劃分?jǐn)?shù)據(jù)粒度,對(duì)數(shù)據(jù)使用者使用數(shù)據(jù)、組織數(shù)據(jù)單元是一項(xiàng)關(guān)鍵技術(shù)。并且,對(duì)數(shù)據(jù)使用者開放數(shù)據(jù)的基本單元需要具有防泄露、保護(hù)權(quán)益的能力,如何將數(shù)據(jù)防泄露功能和數(shù)據(jù)權(quán)益保護(hù)機(jī)制等封裝在數(shù)據(jù)單元中,是需要解決的關(guān)鍵技術(shù)。

 ?。?)數(shù)據(jù)盒的形式化與計(jì)量技術(shù)

  數(shù)據(jù)描述、數(shù)據(jù)操作和約束是數(shù)據(jù)盒的基本要素,數(shù)據(jù)盒的使用涉及數(shù)據(jù)盒的交、并、拼接等操作,這需要對(duì)數(shù)據(jù)盒進(jìn)行形式化表示。數(shù)據(jù)盒的計(jì)量是根據(jù)數(shù)據(jù)使用者提出的要求和目標(biāo),計(jì)算使用者所需數(shù)據(jù)盒的數(shù)量和時(shí)間等,并進(jìn)行定價(jià),包括數(shù)據(jù)使用需求建模、數(shù)據(jù)需求與數(shù)據(jù)盒自適應(yīng)匹配方法、數(shù)據(jù)盒的計(jì)量度量設(shè)計(jì)與度量方法、定價(jià)規(guī)則和方法等。

  5.2 數(shù)據(jù)使用外部軟件行為管控方法

  數(shù)據(jù)自治開放環(huán)境允許數(shù)據(jù)使用者通過(guò)外部軟件訪問(wèn)以數(shù)據(jù)盒形式存在的特定數(shù)據(jù)資源。為了保護(hù)數(shù)據(jù)利益和數(shù)據(jù)資源的可持續(xù)發(fā)展,應(yīng)當(dāng)對(duì)外部軟件訪問(wèn)數(shù)據(jù)的行為進(jìn)行規(guī)范化和管控。外部軟件行為管控是數(shù)據(jù)自治開放中保障數(shù)據(jù)權(quán)益的重要環(huán)節(jié)。通過(guò)監(jiān)控外部軟件訪問(wèn)軟件的長(zhǎng)期行為,提取軟件訪問(wèn)數(shù)據(jù)的行為特征,并基于這些特征抽象其高層意圖。涉及的關(guān)鍵技術(shù)包括以下幾個(gè)方面。

 ?。?)基于業(yè)務(wù)領(lǐng)域知識(shí)模型的軟件行為意圖建模技術(shù)

  客戶軟件訪問(wèn)開放的數(shù)據(jù)資源時(shí),應(yīng)當(dāng)表明其訪問(wèn)數(shù)據(jù)資源的高層意圖。例如某客戶軟件聲稱為了追蹤病癥A的治療和患者愈后情況,需要訪問(wèn)該病癥的所有醫(yī)療數(shù)據(jù),那么根據(jù)這一意圖,對(duì)與病癥A“概念相關(guān)”的數(shù)據(jù)資源的訪問(wèn)(可能)都是符合其意圖的。這種概念相關(guān)性依賴于特定業(yè)務(wù)領(lǐng)域知識(shí)模型以及對(duì)開放數(shù)據(jù)資源的語(yǔ)義標(biāo)注。在客戶軟件訪問(wèn)開放數(shù)據(jù)資源時(shí),對(duì)其所有數(shù)據(jù)訪問(wèn)行為和訪問(wèn)過(guò)的數(shù)據(jù)資源語(yǔ)義進(jìn)行分析,對(duì)客戶軟件訪問(wèn)數(shù)據(jù)資源的實(shí)際意圖進(jìn)行建模。

 ?。?)數(shù)據(jù)使用的言行一致管控技術(shù)

  在數(shù)據(jù)自治開放環(huán)境中,外部軟件以黑盒方式在授權(quán)范圍內(nèi)對(duì)數(shù)據(jù)進(jìn)行自主訪問(wèn)。外部軟件在進(jìn)入計(jì)算環(huán)境前,應(yīng)當(dāng)先聲明其使用開放數(shù)據(jù)資源的目的,即提供其標(biāo)稱意圖。標(biāo)稱意圖的描述與該軟件的特定業(yè)務(wù)領(lǐng)域密切相關(guān),也應(yīng)當(dāng)表明其將采用的主要數(shù)據(jù)處理方法,作為使用數(shù)據(jù)時(shí)行為合法性的評(píng)價(jià)標(biāo)準(zhǔn)。聲明了合法標(biāo)稱意圖的軟件在實(shí)施數(shù)據(jù)訪問(wèn)時(shí),其行為序列應(yīng)當(dāng)符合其所聲稱的意圖。根據(jù)軟件行為推測(cè)得到的意圖,即軟件行為意圖。當(dāng)軟件的行為意圖(行)與軟件標(biāo)稱意圖(言)不一致時(shí),即表明該軟件對(duì)開放環(huán)境造成風(fēng)險(xiǎn)。為了驗(yàn)證外部軟件行為是否符合其聲明的意圖,需要相應(yīng)的軟件行為驗(yàn)證技術(shù)。在隔離受控的沙箱環(huán)境中,對(duì)數(shù)據(jù)單元訪問(wèn)接口和環(huán)境的不同安全級(jí)別進(jìn)行模擬,留存軟件行為日志進(jìn)行分析驗(yàn)證。在此基礎(chǔ)上,在外部軟件使用數(shù)據(jù)的過(guò)程中,還需要采用量化機(jī)制客觀評(píng)價(jià)外部軟件的行為損害數(shù)據(jù)權(quán)益的風(fēng)險(xiǎn),通過(guò)衡量行為意圖偏離標(biāo)稱意圖的程度、行為意圖對(duì)數(shù)據(jù)價(jià)值和利益相關(guān)方的影響程度、軟件行為意圖判斷準(zhǔn)確度等因素,綜合判定該軟件的行為風(fēng)險(xiǎn)等級(jí)。

  5.3 開放數(shù)據(jù)權(quán)益保護(hù)方法

  數(shù)據(jù)自治開放以數(shù)據(jù)盒為基本數(shù)據(jù)單元向數(shù)據(jù)使用者開放,因此數(shù)據(jù)資源稀缺性喪失和隱私泄露等問(wèn)題的防范主要針對(duì)數(shù)據(jù)盒。數(shù)據(jù)盒數(shù)據(jù)被竊取、隱私數(shù)據(jù)泄露以及機(jī)密數(shù)據(jù)丟失等問(wèn)題將導(dǎo)致數(shù)據(jù)權(quán)益受損,會(huì)降低數(shù)據(jù)擁有者開放自身數(shù)據(jù)的意愿。數(shù)據(jù)盒權(quán)益保護(hù)涉及以下關(guān)鍵技術(shù)。

  (1)數(shù)據(jù)盒加密與隱私保護(hù)

  一個(gè)數(shù)據(jù)盒可能包含照片、視頻、文本和結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)盒的使用是外部的、未知的、無(wú)限的,傳統(tǒng)的數(shù)據(jù)加密、數(shù)據(jù)隱私技術(shù)無(wú)法有效應(yīng)用在數(shù)據(jù)盒中。

  在數(shù)據(jù)盒加密方面,數(shù)據(jù)開放下的數(shù)據(jù)加密保護(hù)需要兼顧兩種情形。一是在數(shù)據(jù)盒正常使用情況下,需要考慮數(shù)據(jù)盒的安全性和功能性的權(quán)衡,使得在保證數(shù)據(jù)正常高效操作的前提下最大程度地保證數(shù)據(jù)的機(jī)密性。這需要可調(diào)整的加密技術(shù),將相應(yīng)數(shù)據(jù)項(xiàng)進(jìn)行一層或多層加密,當(dāng)外部軟件請(qǐng)求使用數(shù)據(jù)時(shí),在保證操作(讀、寫、結(jié)合等)順利執(zhí)行的前提下只需要打開所需的層次,使得該層既能完成外部軟件所需的操作,同時(shí)又不至于公開更內(nèi)部的層次。二是即便數(shù)據(jù)盒被盜取或控制,也需保持?jǐn)?shù)據(jù)盒中數(shù)據(jù)的機(jī)密性,這需要保證數(shù)據(jù)盒抗盜取和抗逆向拆解的技術(shù)。

  在數(shù)據(jù)自治開放模式下,數(shù)據(jù)使用者的軟件在申請(qǐng)使用數(shù)據(jù)盒時(shí),需要有一個(gè)數(shù)據(jù)使用說(shuō)明,說(shuō)明軟件使用哪些數(shù)據(jù)、以什么樣的方式使用這些數(shù)據(jù)、使用的預(yù)期結(jié)果是什么。因此數(shù)據(jù)盒的隱私保護(hù)主要包括如何判斷一個(gè)數(shù)據(jù)使用說(shuō)明是否涉及隱私泄露、涉及哪些隱私數(shù)據(jù)、嚴(yán)重程度如何。這需要研究新型的隱私認(rèn)知技術(shù)。

  (2)基于數(shù)據(jù)覆蓋模型的數(shù)據(jù)拼圖防范技術(shù)

  數(shù)據(jù)拼圖是指數(shù)據(jù)使用者能夠通過(guò)整合多次獲取的數(shù)據(jù)片段,還原數(shù)據(jù)整體。數(shù)據(jù)拼圖可以由單個(gè)使用者多次獲取數(shù)據(jù)片段來(lái)完成,也可由多個(gè)使用者共同合作,通過(guò)共同合作實(shí)現(xiàn)對(duì)數(shù)據(jù)片段的拼接。使用數(shù)據(jù)拼圖技術(shù),數(shù)據(jù)使用者可以通過(guò)非法的手段,未加授權(quán)地獲取被保護(hù)的數(shù)據(jù)對(duì)象,并將其私有化。數(shù)據(jù)拼圖會(huì)給數(shù)據(jù)自治開放帶來(lái)實(shí)質(zhì)危害,數(shù)據(jù)的使用期限、使用目的等權(quán)屬將難以受到保護(hù)。而且數(shù)據(jù)使用者可以將通過(guò)數(shù)據(jù)拼圖獲得的數(shù)據(jù)再次傳播給其他的未被授權(quán)的數(shù)據(jù)使用者,進(jìn)一步造成對(duì)原數(shù)據(jù)權(quán)屬的二次侵犯。首先需要構(gòu)造數(shù)據(jù)使用行為的形式化描述,通過(guò)追蹤分析數(shù)據(jù)痕跡,動(dòng)態(tài)構(gòu)造數(shù)據(jù)覆蓋模型,實(shí)時(shí)檢測(cè)與量化數(shù)據(jù)拼圖的危害性,建立可行的防范以及預(yù)警體系,有效預(yù)防與阻止數(shù)據(jù)拼圖對(duì)數(shù)據(jù)權(quán)屬的侵害。

  5.4 面向數(shù)據(jù)自治開放的數(shù)據(jù)資源管理系統(tǒng)

  數(shù)據(jù)資源以數(shù)據(jù)盒的形式存放在數(shù)據(jù)站中,每個(gè)數(shù)據(jù)站配備一套數(shù)據(jù)資源管理系統(tǒng),用以管理該站下的所有數(shù)據(jù)資源(數(shù)據(jù)盒)。通過(guò)數(shù)據(jù)盒虛擬化、應(yīng)用裝載等功能供外部軟件使用數(shù)據(jù)。與傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)(database management system,DBMS)相比,數(shù)據(jù)資源管理系統(tǒng)承擔(dān)的數(shù)據(jù)管理不涉及事務(wù)處理,只有數(shù)據(jù)使用,但也不同于數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)用于數(shù)據(jù)開發(fā)利用而不是數(shù)據(jù)開放。涉及的關(guān)鍵技術(shù)包括以下幾個(gè)方面。

  (1)數(shù)據(jù)站組成與管理技術(shù)

  數(shù)據(jù)資源裝載在數(shù)據(jù)盒中,數(shù)據(jù)盒儲(chǔ)備在數(shù)據(jù)站里,因此需要研究數(shù)據(jù)站的邏輯構(gòu)成要素、物理形態(tài)、數(shù)據(jù)盒的組織方法與管理技術(shù),以便能夠快速定位某個(gè)數(shù)據(jù)資源的位置,包括通過(guò)數(shù)據(jù)資源元數(shù)據(jù)查找數(shù)據(jù)在哪些數(shù)據(jù)盒中,并從大量數(shù)據(jù)盒中快速定位到某一個(gè)數(shù)據(jù)盒,為用戶提供數(shù)據(jù)盒,展示數(shù)據(jù)盒的內(nèi)容或數(shù)據(jù)資源樣本。此外,還需要研究數(shù)據(jù)盒的新增、更新、凍結(jié)(即不再對(duì)外提供使用)以及瀏覽、查詢、校核等管理技術(shù)。

  (2)數(shù)據(jù)盒虛擬化方法

  數(shù)據(jù)盒的虛擬化是結(jié)合硬件虛擬化技術(shù),為每個(gè)需要訪問(wèn)特定數(shù)據(jù)盒的外部軟件提供一個(gè)操作托盤。各虛擬數(shù)據(jù)盒相互隔離,且對(duì)某個(gè)虛擬數(shù)據(jù)盒的更改和刪除不會(huì)影響其他同源虛擬數(shù)據(jù)盒或原始的數(shù)據(jù)盒。對(duì)于數(shù)據(jù)資源管理系統(tǒng)而言,數(shù)據(jù)單元虛擬化技術(shù)直接關(guān)系到數(shù)據(jù)使用的安全性,即保護(hù)數(shù)據(jù)或隱私不會(huì)泄露,保障數(shù)據(jù)自治公開以及保證外部軟件使用數(shù)據(jù)規(guī)范受控。需要重點(diǎn)突破不在物理存儲(chǔ)上完全制作一份數(shù)據(jù)的副本的基礎(chǔ)上,實(shí)現(xiàn)虛擬化的虛擬數(shù)據(jù)單元相互隔離、可用,且控制內(nèi)存等資源的使用率,使整個(gè)數(shù)據(jù)站能夠支撐大量外部軟件,同時(shí)使用虛擬數(shù)據(jù)單元;如何在不進(jìn)行數(shù)據(jù)盒物理復(fù)制的前提下提供虛擬化的數(shù)據(jù)盒,研究虛擬數(shù)據(jù)盒緩存技術(shù)、虛擬數(shù)據(jù)盒變動(dòng)維護(hù)(更新、撤銷等)和長(zhǎng)操作策略等。

 ?。?)NoSQL/Open運(yùn)行庫(kù)和SDK

  設(shè)計(jì)NoSQL/Open(NoSQL open data language)語(yǔ)法規(guī)則,開發(fā)適用于常用操作系統(tǒng)的NoSQL/Open運(yùn)行環(huán)境和運(yùn)行庫(kù),支持主流編程語(yǔ)言的軟件開發(fā)工具包(software development kit, SDK),為外部軟件實(shí)現(xiàn)與數(shù)據(jù)資源管理系統(tǒng)的互操作提供對(duì)數(shù)據(jù)站內(nèi)虛擬數(shù)據(jù)盒的訪問(wèn)。通過(guò)NoSQL/Open,可以方便地使用數(shù)據(jù)盒。

  (4)系統(tǒng)承載力與數(shù)據(jù)站承載力模型數(shù)據(jù)資源管理系統(tǒng)和數(shù)據(jù)站也不可能管理無(wú)限多的數(shù)據(jù),提供無(wú)限的數(shù)據(jù)訪問(wèn)能力。因此需要給出數(shù)據(jù)資源管理系統(tǒng)承載力模型,用以描述單個(gè)數(shù)據(jù)資源管理系統(tǒng)的極限能力、單個(gè)數(shù)據(jù)站所能承載的服務(wù)能力極限、與硬件的關(guān)系、數(shù)據(jù)站的擴(kuò)展性與承載能力的關(guān)系等。

  6  結(jié)束語(yǔ)

  面對(duì)數(shù)據(jù)開放共享的戰(zhàn)略需求,傳統(tǒng)的面向數(shù)據(jù)自治封閉的數(shù)據(jù)管理技術(shù)無(wú)法適應(yīng)數(shù)據(jù)開放的需求,急需開發(fā)面向數(shù)據(jù)開放的數(shù)據(jù)資源管理技術(shù)。本文提出了“數(shù)據(jù)自治開放”這一新型的數(shù)據(jù)資源開放模式,數(shù)據(jù)由數(shù)據(jù)擁有者在法律框架下自行確權(quán)和管理、自行制定開放規(guī)則(即數(shù)據(jù)自治),然后將數(shù)據(jù)開放給使用者,使用者沒有數(shù)據(jù)治理權(quán)。數(shù)據(jù)資源稀缺性不喪失的開放才是可持續(xù)的開放,就像保護(hù)知識(shí)產(chǎn)權(quán)才能保護(hù)創(chuàng)新,才能可持續(xù)。數(shù)據(jù)自治開放模式有望成為數(shù)據(jù)開放的基本模式,是政府?dāng)?shù)據(jù)開放共享、企業(yè)及個(gè)人數(shù)據(jù)交易、國(guó)家數(shù)據(jù)主權(quán)實(shí)現(xiàn)的一種可行方法。

  朱揚(yáng)勇1,2, 熊贇1,2, 廖志成1,2, 葉雅珍1,2,3

  1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203

  2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201203

  3. 東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620

作者簡(jiǎn)介

  朱揚(yáng)勇(1963-),男,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、學(xué)術(shù)委員會(huì)主任,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護(hù)和利用,2009年發(fā)表了數(shù)據(jù)科學(xué)論文“Data explosion,data nature and dataology”,并出版專著《數(shù)據(jù)學(xué)》,對(duì)數(shù)據(jù)科學(xué)進(jìn)行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。擔(dān)任第462次香山科學(xué)會(huì)議“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的理論問(wèn)題探索”的執(zhí)行主席、“大數(shù)據(jù)技術(shù)與應(yīng)用叢書”主編。目前主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)。

  熊贇(1980-),女,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項(xiàng)目負(fù)責(zé)人主持國(guó)家自然科學(xué)基金、上海市科學(xué)技術(shù)委員會(huì)發(fā)展基金以及企業(yè)合作項(xiàng)目。相關(guān)研究成果在國(guó)際權(quán)威期刊和會(huì)議發(fā)表論文40余篇、出版著作3本。目前主要研究方向?yàn)閿?shù)據(jù)科學(xué)和大數(shù)據(jù)。

  廖志成(1974-),男,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院高級(jí)工程師。1997年開始從事信息安全領(lǐng)域研究,2011年起從事數(shù)據(jù)領(lǐng)域方面的研究工作。作為主要人員參加了20余項(xiàng)國(guó)家自然科學(xué)基金項(xiàng)目、國(guó)家“863”計(jì)劃項(xiàng)目、國(guó)家教育委員會(huì)項(xiàng)目、上海市科學(xué)技術(shù)委員會(huì)項(xiàng)目、上海市教育委員會(huì)項(xiàng)目以及企業(yè)合作項(xiàng)目。先后獲得過(guò)中國(guó)高??茖W(xué)技術(shù)獎(jiǎng)二等獎(jiǎng)1項(xiàng)、上海市科技進(jìn)步獎(jiǎng)二等獎(jiǎng)2項(xiàng)、中國(guó)智能交通協(xié)會(huì)科學(xué)技術(shù)獎(jiǎng)二等獎(jiǎng)1項(xiàng)。發(fā)表論文9篇,出版著作7本。目前主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)、數(shù)據(jù)挖掘。

  葉雅珍(1985-),女,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院助理研究員,東華大學(xué)博士生,主要研究方向?yàn)閿?shù)據(jù)科學(xué)和大數(shù)據(jù)。

責(zé)任編輯:李泰民