站在新的歷史起點(diǎn)和數(shù)字化發(fā)展創(chuàng)新風(fēng)口,秉持“智慧報(bào)國”的一貫初心,不負(fù)連續(xù)17年堅(jiān)持累積的良好社會(huì)影響與業(yè)界口碑,一年一度的改革研討盛會(huì)“智慧中國年會(huì)”,以“聚焦數(shù)字化覺醒和數(shù)字中國再提速”為主題,于11月24日-25日通過網(wǎng)絡(luò)直播渠道盛大開啟。2021智慧中國年會(huì)由智慧中國年會(huì)組委會(huì)、北京國脈互聯(lián)信息顧問有限公司主辦,設(shè)置主論壇和專項(xiàng)分論壇,分別以“加快數(shù)字化轉(zhuǎn)型 建設(shè)美好數(shù)字中國”和“數(shù)據(jù)治理體系構(gòu)建與城市運(yùn)行體征管理”為主題,邀請界內(nèi)決策者、管理者、建設(shè)者、觀察者、思考者開展深入探討、交流與合作。

  本文系國家信息中心原主任、國家信息化專家咨詢委員會(huì)委員高新民于11月24日上午在“2021智慧中國年會(huì)”主論壇上的演講。內(nèi)容通過速記整理,未經(jīng)本人審核。

圖片

---以下為演講內(nèi)容---

  很高興今天有機(jī)會(huì)參加智慧中國的年會(huì),因?yàn)橐咔殛P(guān)系就不到現(xiàn)場了,通過視頻的方式與大家做交流。大家知道,現(xiàn)在我們在推動(dòng)數(shù)字中國的過程中,核心問題是做數(shù)字化轉(zhuǎn)型或者叫數(shù)字化發(fā)展,十四五規(guī)劃中專門有一章節(jié)來講這個(gè)問題。數(shù)字化轉(zhuǎn)型、數(shù)字化發(fā)展核心問題是數(shù)據(jù)的問題,要以數(shù)據(jù)為驅(qū)動(dòng),加上數(shù)據(jù)的治理,產(chǎn)生智能化決策、閉環(huán)、控制,來實(shí)現(xiàn)智慧中國的發(fā)展應(yīng)用。因此,現(xiàn)在討論較多的“數(shù)據(jù)”作為關(guān)鍵要素,數(shù)據(jù)治理應(yīng)如何推進(jìn),最近國家在這方面發(fā)布了很多文件,特別是在數(shù)據(jù)安全領(lǐng)域,實(shí)際上這也涉及了數(shù)據(jù)治理的問題,各個(gè)單位對數(shù)據(jù)治理也高度重視,特別是關(guān)于數(shù)據(jù)的質(zhì)量控制、數(shù)據(jù)安全使用以及數(shù)據(jù)共享、數(shù)據(jù)流轉(zhuǎn)等等數(shù)據(jù)治理問題。另外,討論數(shù)據(jù)交易的問題也比較多,如何確權(quán),如何定價(jià),現(xiàn)在各個(gè)地方也在做大數(shù)據(jù)交易中心,這也是數(shù)據(jù)治理問題。但現(xiàn)在感覺到有一個(gè)問題,現(xiàn)在對數(shù)據(jù)治理基礎(chǔ)架構(gòu)如何構(gòu)建,這個(gè)問題討論不是很多,也不是很清楚如何做。在過去,數(shù)據(jù)治理在一個(gè)機(jī)構(gòu)或部門里邊,他的基礎(chǔ)架構(gòu)是有案例的,也是有解決方案的,這是沒有問題的,但是現(xiàn)在的數(shù)據(jù)治理涉及到一個(gè)更大的空間,涉及跨部門、跨地區(qū)、跨層級這樣一個(gè)特征,因此,數(shù)據(jù)治理架構(gòu)應(yīng)該什么樣,今天圍繞這一問題談一些看法,供大家參考。

  數(shù)據(jù)要素重要性大家都有共識。簡單來說,數(shù)據(jù)本身是一個(gè)基礎(chǔ)支撐,比如“人”,人是有身份證數(shù)據(jù),有基因數(shù)據(jù),每個(gè)人都有一個(gè)身份、基本生理特征等基礎(chǔ)數(shù)據(jù)的支撐,這些數(shù)據(jù)與業(yè)務(wù)相融合就能產(chǎn)生效益。比如,人的基因數(shù)據(jù),人到醫(yī)院看病,診斷這個(gè)人是什么病,一般下來有時(shí)候這個(gè)病跟基因是有關(guān)系的,因此,跟診療結(jié)合之后,才會(huì)提升診斷的效率和準(zhǔn)確度。另外,數(shù)據(jù)作為要素能夠流轉(zhuǎn),能夠在更大范圍內(nèi)流通,那么,他將產(chǎn)生更大的價(jià)值。比如,基因數(shù)據(jù),在國外與醫(yī)院中的診療數(shù)據(jù)、制藥企業(yè)掌握的制藥數(shù)據(jù)、療效數(shù)據(jù)以及其他有關(guān)醫(yī)療健康數(shù)據(jù)融合之后,當(dāng)然數(shù)據(jù)要透明,他可以發(fā)現(xiàn)很多規(guī)律,這樣他的價(jià)值將更大,數(shù)據(jù)這三種價(jià)值的提升越來越重要,這個(gè)越來越有共識。

  目前數(shù)據(jù)還面臨一些問題。第一,數(shù)據(jù)質(zhì)量問題,有相當(dāng)一部分?jǐn)?shù)據(jù)質(zhì)量不是特別高,有不少問題,如準(zhǔn)確性不高、時(shí)效性不高、垃圾數(shù)據(jù),給數(shù)據(jù)應(yīng)用帶來一些困難。第二,數(shù)據(jù)流轉(zhuǎn)不暢,如大家知道的信息孤島、數(shù)據(jù)孤島。第三,融合應(yīng)用方面深度不夠,用的還不太好,產(chǎn)生的價(jià)值不知道怎么用。這些問題怎么解決,都是跟數(shù)據(jù)治理密切有關(guān)系的,質(zhì)量問題、流轉(zhuǎn)問題、融合之后應(yīng)用價(jià)值、安全可控問題都是和數(shù)據(jù)治理有關(guān)的。

  現(xiàn)在的出路是,怎樣構(gòu)建領(lǐng)域數(shù)據(jù)空間。用政策、制度支撐構(gòu)建領(lǐng)域數(shù)據(jù)空間,同時(shí)用技術(shù)架構(gòu)支撐構(gòu)建領(lǐng)域數(shù)據(jù)空間,就剛剛講到,數(shù)據(jù)流轉(zhuǎn)、數(shù)據(jù)共享有困難,跨部門、跨地區(qū)、跨異組的數(shù)據(jù)共享有困難,困難的原因是什么呢,這里面有些數(shù)據(jù)標(biāo)準(zhǔn)不一樣,數(shù)據(jù)所存儲或產(chǎn)生的數(shù)據(jù)的信息也是異構(gòu)的、異組的、異地的,也就是三異,這些客觀上來講對數(shù)據(jù)的共享產(chǎn)生困難,但是泛泛的說,把所有數(shù)據(jù)按照一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來做,這個(gè)難度非常大,因?yàn)閿?shù)據(jù)幾乎是一個(gè)海洋,不可能對海洋的每一滴水進(jìn)行治理,所以我的一個(gè)觀點(diǎn)就是,首先數(shù)據(jù)要變成一個(gè)數(shù)據(jù)對象,是有邊界、可識別、有內(nèi)涵的、可定義的對象,我們叫他數(shù)據(jù)對象,數(shù)據(jù)要變成一個(gè)數(shù)據(jù)對象,由數(shù)據(jù)對象在一定的基礎(chǔ)架構(gòu)下,能夠進(jìn)入一個(gè)空間,這個(gè)空間里能夠使數(shù)據(jù)對象進(jìn)行互操作,所以,數(shù)據(jù)本身要進(jìn)行治理,首先數(shù)據(jù)要變成數(shù)據(jù)對象,由數(shù)據(jù)對象構(gòu)建基礎(chǔ)數(shù)據(jù)架構(gòu),這個(gè)架構(gòu)有制度規(guī)則、有技術(shù)的支撐,形成領(lǐng)域數(shù)據(jù)空間。為什么叫領(lǐng)域,因?yàn)閿?shù)據(jù)要共享、要流轉(zhuǎn),一定跟場景、跟應(yīng)用導(dǎo)向是相關(guān)的,而領(lǐng)域與數(shù)據(jù)應(yīng)用場景比較親切,應(yīng)用需求比較清楚,因此在這種條件下,數(shù)據(jù)對象本身的關(guān)聯(lián)度就比較強(qiáng),因此就形成領(lǐng)域,所以符合領(lǐng)域內(nèi)強(qiáng)關(guān)聯(lián)度的數(shù)據(jù)形成空間,這個(gè)空間能夠?qū)崿F(xiàn)數(shù)據(jù)的互操作基礎(chǔ),大概就是這樣一個(gè)概念,我認(rèn)為這個(gè)概念就應(yīng)該是數(shù)據(jù)治理的基礎(chǔ)設(shè)施,沒有這個(gè)基礎(chǔ)設(shè)施就很難把數(shù)據(jù)治理的質(zhì)量、流轉(zhuǎn)、共享、安全、融合使用這幾個(gè)要素都去做到就很難。最近國家出臺很多關(guān)于數(shù)據(jù)安全的條例,這些數(shù)據(jù)安全條例是必要的,但怎樣去落地,我認(rèn)為落地的關(guān)鍵問題就是基礎(chǔ)架構(gòu),沒有這個(gè)基礎(chǔ)架構(gòu),這些落地是非常困難的,尤其是在互聯(lián)網(wǎng)的這個(gè)環(huán)境下,很多互聯(lián)網(wǎng)平臺企業(yè),其數(shù)據(jù)量是非常巨大的,上千個(gè)bit,如果這些數(shù)據(jù)里面沒有一個(gè)基礎(chǔ)的架構(gòu),不是一個(gè)可識別的數(shù)據(jù)對象,那么如何對他進(jìn)行監(jiān)管、提出要求,進(jìn)行治理,包括他自己要去流轉(zhuǎn)、去管理都是很困難的。所以這就是我們今天說的,要構(gòu)建一個(gè)數(shù)據(jù)治理的基礎(chǔ)架構(gòu),這個(gè)基礎(chǔ)架構(gòu)我建議不是泛泛去說,要去建立領(lǐng)域數(shù)據(jù)空間。領(lǐng)域數(shù)據(jù)空間有兩個(gè)支撐,一個(gè)是制度/政策支撐,這里引用FAIR原則,符合FAIR原則的標(biāo)準(zhǔn)的數(shù)據(jù)對象,就可以進(jìn)入這個(gè)數(shù)據(jù)空間。另外,這個(gè)數(shù)據(jù)空間要用技術(shù)實(shí)現(xiàn)FAIR原則,實(shí)現(xiàn)這個(gè)標(biāo)準(zhǔn)的技術(shù)架構(gòu),也是對數(shù)字對象體系架構(gòu)進(jìn)行技術(shù)支撐。由這兩個(gè)支柱,即制度支柱、技術(shù)支柱,來形成一個(gè)領(lǐng)域的數(shù)據(jù)空間,這樣作為數(shù)據(jù)治理的基礎(chǔ)設(shè)施,我覺的這是一個(gè)思路。這個(gè)思路也是最近觀察到歐盟在實(shí)施一個(gè)歐盟統(tǒng)一數(shù)據(jù)空間的倡議或者說是一個(gè)項(xiàng)目,這里面有兩個(gè)內(nèi)容,一個(gè)是統(tǒng)一歐洲的云,因?yàn)閿?shù)據(jù)都在云上,都是云架構(gòu),所以做了一個(gè)統(tǒng)一歐洲云的技術(shù)架構(gòu);另外在這個(gè)架構(gòu)上,做了一個(gè)IDS,國際數(shù)據(jù)空間(International Data Space)。這兩個(gè)東西組合成歐盟跨國數(shù)據(jù)基礎(chǔ)設(shè)施,他甚至還有一個(gè)想法是把他做成國際的。這個(gè)想法跟我今天講的內(nèi)容還是有一些區(qū)別的,他沒用運(yùn)用DOA的架構(gòu),也沒有很明確的用FAIR原則在做,那么我是把這三個(gè)內(nèi)容結(jié)合起來,來進(jìn)行的一個(gè)思路研究。歐盟的IDS和云空間這兩個(gè)項(xiàng)目,國內(nèi)有些單位跟他們有很多交流,過幾天我和德國的一個(gè)教授也會(huì)做一些技術(shù)交流,我希望大家能夠關(guān)注、能夠借鑒,設(shè)計(jì)符合我國國情、符合我們實(shí)際的,借鑒新的理念,把領(lǐng)域數(shù)據(jù)空間作為數(shù)據(jù)治理的基礎(chǔ)設(shè)施來推進(jìn)。

  下面,我想再展開下,把FAIR原則、DOA的技術(shù)架構(gòu)簡單說說,供大家參考。

  領(lǐng)域數(shù)據(jù)空間分類??梢苑譃楫a(chǎn)業(yè)領(lǐng)域數(shù)據(jù)空間,舉例有加工制造業(yè)、交通運(yùn)輸業(yè)、通訊產(chǎn)業(yè)、金融業(yè)等等,這些產(chǎn)業(yè)是強(qiáng)相關(guān)的,某個(gè)行業(yè)里互相有關(guān)聯(lián),也可以再細(xì)分,當(dāng)然也不能太細(xì)了,還是有個(gè)領(lǐng)域的;另外一個(gè)是政務(wù)領(lǐng)域數(shù)據(jù)空間,比如政府之間的電子政務(wù)、政府對企業(yè)的電子政務(wù),即G2G、G2B、G2C、G2E,G2E是指政府對本身公務(wù)員的,這個(gè)分類也可以;還有一種就是按照我們政務(wù)領(lǐng)域之間的分類,如環(huán)境保護(hù)、公共安全、公共衛(wèi)生、產(chǎn)業(yè)宏觀調(diào)控的等等也可以按照這個(gè)來分。公共領(lǐng)域里面有電子健康、科研教育、文旅、民生生活上的內(nèi)容等等,這個(gè)是舉例來講,都可以這么分類。

  FAIR原則,實(shí)際上也是四個(gè)英文名的開頭字母,第一個(gè)字可發(fā)現(xiàn),數(shù)據(jù)變?yōu)閿?shù)據(jù)對象,有邊界、可識別、有內(nèi)涵、可定義、可定價(jià),在某種場景下可定價(jià),定價(jià)一定跟場景關(guān)聯(lián),沒有場景關(guān)聯(lián)這個(gè)價(jià)是很難定的。這四個(gè)字呢,第一個(gè)是可發(fā)現(xiàn),第二個(gè)字是可訪問,第三個(gè)字是可互操作,第四個(gè)字是指這個(gè)數(shù)據(jù)對象可重用??砂l(fā)現(xiàn)就是數(shù)據(jù)對象在什么位置,講數(shù)據(jù)在什么位置是很難發(fā)現(xiàn)的,數(shù)據(jù)是一個(gè)很泛在的概念,一定是變成數(shù)據(jù)對象后是可發(fā)現(xiàn)的,他有標(biāo)識、有邊界、有地址;可訪問是指可以找到,有一定訪問權(quán)限,有認(rèn)證,安全里面有可訪問,包括認(rèn)證權(quán)限、訪問權(quán)限等;可互操作,包括接口、數(shù)據(jù)間的通信協(xié)議,這個(gè)都要標(biāo)準(zhǔn)化;可重用就是可流轉(zhuǎn),在一定的條件下面、一定的規(guī)則下面,與前面三個(gè)條件能夠在需求導(dǎo)向、規(guī)則為基礎(chǔ)下重用,就是流轉(zhuǎn)。這個(gè)原則所有的數(shù)據(jù)對象,符合這個(gè)原則就允許進(jìn)入共同體,就能夠享受共同體的一些權(quán)益。符合FAIR原則是它的義務(wù),不符合原則自動(dòng)標(biāo)準(zhǔn)的數(shù)據(jù)對象是不能進(jìn)入共同體。進(jìn)入到數(shù)據(jù)共同體或數(shù)據(jù)空間,它符合這個(gè)原則就很容易在有需求、有場景導(dǎo)向的情況下,很容易實(shí)現(xiàn)互操作,就能夠?qū)崿F(xiàn)共享,就能夠很容易組成支撐業(yè)務(wù)的需求,就是這么一個(gè)思路,當(dāng)然包括各種各樣的治理,你要去交易也好、你要去開放也好、你要去共享也好,不同的流轉(zhuǎn)機(jī)制就能夠支撐。

  這個(gè)原則因?yàn)闀r(shí)間關(guān)系就不詳細(xì)講了,對數(shù)據(jù)的要求大家可以再看看。目前FAIR原則在國際上,在科研的數(shù)據(jù)上發(fā)揮共享和互操作起了非常明顯的作用。我剛開始舉的例子,舉了基因數(shù)據(jù)和臨床數(shù)據(jù)、還有藥物的治療數(shù)據(jù),這些數(shù)據(jù)是跨部門的、跨領(lǐng)域,有的是在制造業(yè),有的是在醫(yī)院里面,有的是在研究機(jī)構(gòu)學(xué)校里面,他們就用FAIR原則把數(shù)據(jù)都進(jìn)入到一個(gè)空間,然后在里面產(chǎn)生很多有價(jià)值的規(guī)律,發(fā)現(xiàn)很多價(jià)值,如某種基因缺陷會(huì)產(chǎn)生什么疾病或者反過來說某種疾病可能和某些基因的變異或者缺陷有關(guān),或者某種藥物對某種疾病因某種基因變異后產(chǎn)生的疾病能有療效、有針對性。那么這樣一些東西目前已經(jīng)是實(shí)現(xiàn),已經(jīng)證明利用FAIR原則是指導(dǎo)數(shù)據(jù)的空間在發(fā)現(xiàn)支撐方面發(fā)揮很大作用,這已經(jīng)是證實(shí)了。舉例子講,上次有一位荷蘭過來的教授,曾經(jīng)和我們交流就是用FAIR原則怎么實(shí)現(xiàn)這種跨部門、跨資源而且是跨國的數(shù)據(jù)共享,能夠分析出很多有用的支撐規(guī)律,這是非常典型的一個(gè)例子。我認(rèn)為這個(gè)事情非常重要,比現(xiàn)在局里研究的數(shù)據(jù)交易、數(shù)據(jù)確權(quán)更為重要。那個(gè)當(dāng)然也是需要研究的,但是不把這些問題研究清楚,我們的數(shù)據(jù)價(jià)值、數(shù)據(jù)的流通流轉(zhuǎn),包括安全的可控都是很難實(shí)現(xiàn)、很難落地。

  這是一方面,F(xiàn)AIR原則是一個(gè)制度原則或者是一個(gè)政策原則。它的技術(shù)實(shí)現(xiàn)什么?就是剛才講的,其中一個(gè)方面也不是全部,歐洲的IDS不是按照FAIR,但是原理和這個(gè)很接近,它是用另外一套體系、另外一套軟件來實(shí)現(xiàn)的。那么現(xiàn)在有一種方案是利用DOA,就是數(shù)字對象體系架構(gòu)來實(shí)現(xiàn),因?yàn)轶w系架構(gòu)就能夠?qū)崿F(xiàn)變成一個(gè)數(shù)據(jù)對象,這個(gè)數(shù)據(jù)可大可小,單個(gè)數(shù)據(jù)可作為一個(gè)對象。一個(gè)數(shù)據(jù)庫、數(shù)據(jù)文件、數(shù)據(jù)湖、數(shù)據(jù)池,將來比如我們講數(shù)據(jù)孿生都可以算數(shù)據(jù)對象。它一定要有邊界,要把它定義好。這個(gè)對象形成之后就給它一定的賦碼、統(tǒng)一的賦碼,而且也是唯一性的。這個(gè)碼賦完之后可注冊,注冊之后這個(gè)賦碼對象還包括兩個(gè)內(nèi)容,不僅僅是碼的問題,封裝之后里面的元數(shù)據(jù)標(biāo)準(zhǔn)是一樣的,元數(shù)據(jù)可以自己定義,它有一定的標(biāo)準(zhǔn)架構(gòu)來定義它。這樣就實(shí)現(xiàn)這些能給它提供條件,這些最后要訪問,訪問要有一定的條件,包括安全認(rèn)證的條件加進(jìn)去。最后信息內(nèi)容能夠,剛才講的元數(shù)據(jù)和內(nèi)涵的一些語義分析也是一部分,和數(shù)據(jù)對象之間的一些通信要有統(tǒng)一的協(xié)議。把這個(gè)架構(gòu)實(shí)現(xiàn)起來,在政策下規(guī)定了一些標(biāo)準(zhǔn)化的數(shù)據(jù)對象進(jìn)入數(shù)據(jù)空間之后,DOA的架構(gòu)技術(shù)實(shí)現(xiàn)它的互操作。這就是一個(gè)完整的數(shù)據(jù)治理基礎(chǔ)架構(gòu)。

  DOA怎么實(shí)現(xiàn)它的支撐?它可發(fā)現(xiàn),里面有標(biāo)識、語義定義、全球的解析,怎么來實(shí)現(xiàn)它可發(fā)現(xiàn)的東西。那么可訪問就是它的安全認(rèn)證,以及元數(shù)據(jù)的定義使它可訪問?;ゲ僮骶褪峭ㄐ艆f(xié)議,一個(gè)是發(fā)現(xiàn)的協(xié)議,還有一個(gè)就是數(shù)據(jù)互相交互協(xié)議。還有一個(gè)重用要在一定的范疇之下有統(tǒng)一的注冊、統(tǒng)一的分類,按照主題、內(nèi)容數(shù)據(jù)對象進(jìn)行分類,有一個(gè)分類表,然后就可以在一定場景下面、用戶有需求的時(shí)候去訪問它,去調(diào)用它都可以。重用的“用”有多種方式,也可以訪問也可以匯聚也可以同步,就像我們現(xiàn)在講的區(qū)塊鏈一樣是數(shù)據(jù)的同步,其實(shí)區(qū)塊鏈?zhǔn)荄OA里面的,區(qū)塊本身是一種DOA,所以我們講區(qū)塊鏈可以把它理解為DOA架構(gòu)下面一種特殊應(yīng)用,而且是一種比較高級的應(yīng)用。所以我認(rèn)為我們用數(shù)據(jù)對象的概念、FAIR原則來構(gòu)建數(shù)據(jù)治理的基礎(chǔ),實(shí)現(xiàn)三億數(shù)據(jù)的互操作這樣一個(gè)基礎(chǔ)。這是數(shù)據(jù)治理非常非常重要的一個(gè)關(guān)鍵。

  我今天就講這些供大家共同研究、共同探討,謝謝大家!

更多精彩,請關(guān)注“官方微信”

11.jpg

 關(guān)于國脈 

國脈,是大數(shù)據(jù)治理、數(shù)字政府、營商環(huán)境、數(shù)字經(jīng)濟(jì)、政務(wù)服務(wù)專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務(wù)"五位一體服務(wù)模型,擁有超能城市APP營商環(huán)境流程再造系統(tǒng)、營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務(wù)系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體等幾十項(xiàng)軟件產(chǎn)品,長期為中國智慧城市、智慧政府和智慧企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務(wù),廣泛服務(wù)于發(fā)改委、營商環(huán)境局、考核辦、大數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。

責(zé)任編輯:wuwenfei