本文系國(guó)脈海洋副總經(jīng)理王路燕女士于4月21日在國(guó)脈互聯(lián)舉辦的“2017第二屆政務(wù)大數(shù)據(jù)發(fā)展與合作研討會(huì)暨數(shù)據(jù)母體產(chǎn)品發(fā)布會(huì)”上的演講,內(nèi)容通過(guò)現(xiàn)場(chǎng)速記整理。

 

 
  非常高興能跟大家分享我們“政務(wù)大數(shù)據(jù)基因系統(tǒng)”構(gòu)建的一些思路。
 
  一、為什么會(huì)做“政務(wù)大數(shù)據(jù)基因系統(tǒng)”?
 
  我們?nèi)ズ芏嗟胤浇榻B這個(gè)產(chǎn)品時(shí),客戶問(wèn)的第一句話就是:“你們作為一家咨詢公司為什么會(huì)做這樣一個(gè)產(chǎn)品?”其實(shí),我們從2013年開(kāi)始做政府?dāng)?shù)據(jù)梳理、信息梳理,做了這么多城市的梳理后,我們發(fā)現(xiàn)存在很多問(wèn)題,包括我們?cè)谧鲆恍╉?xiàng)目咨詢時(shí),很多項(xiàng)目的咨詢規(guī)劃非常理想,但最后落地卻跟實(shí)際有差距。
 
  我們?cè)谧鲞@些項(xiàng)目時(shí)積累了很多經(jīng)驗(yàn),我們?cè)谙肽懿荒馨盐覀兊囊恍┙?jīng)驗(yàn)和方法形成一套產(chǎn)品,來(lái)實(shí)現(xiàn)“咨詢+軟件”這樣一個(gè)目標(biāo)?于是,我們從去年年底開(kāi)始研發(fā)這套系統(tǒng),到今年2月份發(fā)布,這過(guò)程中一直都在完善。
 
  二、“政務(wù)大數(shù)據(jù)基因系統(tǒng)”構(gòu)建思路分享
 
  今天和大家分享以下幾點(diǎn):第一個(gè)是我們前期的理論研究,第二個(gè)是對(duì)我們整個(gè)產(chǎn)品的概述,第三個(gè)會(huì)講一些具體的場(chǎng)景應(yīng)用。
 
 ?。ㄒ唬├碚撗芯?/div>
 
  首先是兩個(gè)模型,一個(gè)是若蘭模型,另一個(gè)是米歇模型,大家做應(yīng)用系統(tǒng)的應(yīng)該都非常了解。
 
  諾蘭模型。上世紀(jì)80年代,美國(guó)著名信息管理專(zhuān)家諾蘭提出,整個(gè)計(jì)算機(jī)的發(fā)展應(yīng)該從六個(gè)階段分為計(jì)算機(jī)時(shí)代和信息時(shí)代,但在后面大量的實(shí)踐中他發(fā)現(xiàn),級(jí)層的數(shù)據(jù)管理是不可分割的。
 
  米歇模型。上世紀(jì)90年代,米歇就明確提出“級(jí)層程序信息系統(tǒng)的級(jí)層本質(zhì),就是要做好數(shù)據(jù)的管理”,于是他提出了“米歇模型”。這個(gè)模型對(duì)整個(gè)信息體系的規(guī)劃,包括信息體系的架構(gòu),都起到了一個(gè)非常基礎(chǔ)的作用。
 
  目前,城市數(shù)據(jù)面整合面臨一個(gè)難題,就是政府各類(lèi)應(yīng)用系統(tǒng)林立,形成了一個(gè)個(gè)的“信息孤島”,“數(shù)據(jù)整合”的需求可以說(shuō)非常迫切。但實(shí)施起來(lái)也是困難重重,在進(jìn)行系統(tǒng)整合時(shí),隨著不同應(yīng)用系統(tǒng)的數(shù)量呈算術(shù)級(jí)數(shù)增加,資源接口數(shù)就會(huì)呈N平方增加,進(jìn)而“資源整合”的投入就會(huì)呈指數(shù)級(jí)數(shù)增加,因此,面向應(yīng)用數(shù)據(jù)的直接整合,工作量非常龐大。
 
  田景熙教授提出了一個(gè)新概念--數(shù)據(jù)基礎(chǔ)設(shè)施(Data Infrastructure - DI)概念。什么是DI?它是一種為滿足社會(huì)某種需要而運(yùn)行的,促進(jìn)數(shù)據(jù)共享和消費(fèi)的數(shù)字化基礎(chǔ)設(shè)施,其建設(shè)和服務(wù)體現(xiàn)一定的經(jīng)濟(jì)功能。數(shù)據(jù)源不直接交換與共享,而是通過(guò)“標(biāo)準(zhǔn)數(shù)據(jù)源”+“接口池”媒介實(shí)現(xiàn)。標(biāo)準(zhǔn)數(shù)據(jù)源和接口池就是“數(shù)據(jù)基礎(chǔ)設(shè)施”,對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行交換前的數(shù)據(jù)治理。
 
  那么,怎么樣去實(shí)現(xiàn)?我們也研究了一些模型:
 
  1、信息資源“金字塔模型”。它認(rèn)為數(shù)據(jù)、信息、知識(shí)、智慧是層層遞進(jìn)的,我們從數(shù)據(jù)中獲取信息,而從信息中得到知識(shí),最后從知識(shí)中獲取智慧。
 
  2、FEA-DRM聯(lián)邦企業(yè)架構(gòu)數(shù)據(jù)參考模型。它包括五個(gè)模型,技術(shù)參考模型(TRM)、數(shù)據(jù)和信息參考模型(DRM)是底層基礎(chǔ)架構(gòu)。數(shù)據(jù)參考模型的目標(biāo)是通過(guò)標(biāo)準(zhǔn)的數(shù)據(jù)描述、通用數(shù)據(jù)的發(fā)現(xiàn)以及統(tǒng)一的數(shù)據(jù)管理實(shí)踐的推廣使得聯(lián)邦政府實(shí)現(xiàn)跨機(jī)構(gòu)的信息共享和重用。那么,它具體是怎樣來(lái)做的呢?它其實(shí)是以整個(gè)數(shù)據(jù)元為基礎(chǔ),通過(guò)梳理業(yè)務(wù)關(guān)系、數(shù)據(jù)分類(lèi),實(shí)現(xiàn)數(shù)據(jù)的交換共享。
 
  (二)產(chǎn)品概述
 
  數(shù)據(jù)基因(DNA)是指基于數(shù)據(jù)元的標(biāo)準(zhǔn)化編碼上可實(shí)現(xiàn)數(shù)據(jù)自由編輯、抽取、復(fù)制和關(guān)聯(lián)應(yīng)用的信息技術(shù)體系。它是實(shí)現(xiàn)數(shù)據(jù)跨系統(tǒng)共享交換、創(chuàng)新應(yīng)用的底層邏輯和信息規(guī)則。
 
  數(shù)據(jù)基因系統(tǒng)是通過(guò)數(shù)據(jù)元管理標(biāo)準(zhǔn)化實(shí)現(xiàn)數(shù)據(jù)規(guī)范編輯、智能管理、關(guān)聯(lián)應(yīng)用和共享開(kāi)放,以提升數(shù)據(jù)資源活化和管理能級(jí),旨在為政府建立數(shù)據(jù)管理體系提供便捷、可靠的工具支撐,幫助梳理數(shù)據(jù)資產(chǎn)清單、統(tǒng)一數(shù)據(jù)口徑、建立數(shù)據(jù)標(biāo)準(zhǔn)、定位數(shù)據(jù)資源、分析資源關(guān)系、設(shè)計(jì)服務(wù)模型。整個(gè)系統(tǒng)架構(gòu)包括資源桌面、資源服務(wù)、資源管理和資源模板。
 
 ?。ㄈ﹫?chǎng)景應(yīng)用
 
  下面,我將結(jié)合我們做的一些咨詢項(xiàng)目講一下我們這個(gè)系統(tǒng)的一些創(chuàng)新服務(wù)。
 
  模塊化服務(wù)
 
  為什么我們要做模板化服務(wù)?我們?cè)谧龊芏囗?xiàng)目、去各個(gè)部門(mén)調(diào)研梳理信息資源時(shí),發(fā)現(xiàn)沒(méi)有一個(gè)部門(mén)能有人把他這個(gè)部門(mén)到底有哪些資源講清楚,他需要把業(yè)務(wù)處的相關(guān)人員都叫過(guò)來(lái)開(kāi)調(diào)研會(huì),然后我們才可能知道這個(gè)業(yè)務(wù)處是負(fù)責(zé)哪塊業(yè)務(wù)、都有什么業(yè)務(wù)資源。于是,我們?cè)谙?,我們能不能在這么多咨詢項(xiàng)目和經(jīng)驗(yàn)的基礎(chǔ)上,來(lái)提供一套服務(wù),說(shuō)清一個(gè)城市的核心業(yè)務(wù)部門(mén)能產(chǎn)生哪些核心業(yè)務(wù)數(shù)據(jù)。
 
  我們的模塊化服務(wù),是圍繞基礎(chǔ)類(lèi)、主題類(lèi)、部門(mén)類(lèi)提供數(shù)據(jù)元、信息資源模板制作、導(dǎo)入、生成功能,對(duì)比篩選設(shè)計(jì)出城市核心業(yè)務(wù)部門(mén)的核心業(yè)務(wù)信息資源作為整個(gè)系統(tǒng)核心數(shù)據(jù)元、信息資源模型,通過(guò)模板庫(kù)各單位可直接使用數(shù)據(jù)元、信息資源模板,以直接沿用或是自定義修改的方式對(duì)模板進(jìn)行選擇性的編目,達(dá)到各部門(mén)政務(wù)信息資源快速梳理、信息資源體系快速架構(gòu)的目標(biāo)。
 
  資產(chǎn)化服務(wù)
 
  為什么做資產(chǎn)化服務(wù)?我們對(duì)很多城市部門(mén)系統(tǒng)進(jìn)行調(diào)研時(shí)發(fā)現(xiàn),部門(mén)應(yīng)用系統(tǒng)非常多,網(wǎng)絡(luò)也非常多,有專(zhuān)網(wǎng)、外網(wǎng)、內(nèi)網(wǎng),同時(shí)這些應(yīng)用系統(tǒng)的數(shù)據(jù)庫(kù)、數(shù)據(jù)字段也非常多,且相互之間的關(guān)系都不清楚。
 
  因此,我們做了個(gè)資產(chǎn)化服務(wù),數(shù)據(jù)基因系統(tǒng)通過(guò)對(duì)城市機(jī)房、服務(wù)器、應(yīng)用系統(tǒng)、數(shù)據(jù)庫(kù)等數(shù)據(jù)資產(chǎn)的梳理,建立部門(mén)數(shù)據(jù)資產(chǎn)清單,通過(guò)系統(tǒng)建立之間的相互關(guān)系,理清楚系統(tǒng)與系統(tǒng)之間、系統(tǒng)與數(shù)據(jù)庫(kù)、表之間、數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,實(shí)現(xiàn)數(shù)據(jù)-數(shù)據(jù)表-數(shù)據(jù)庫(kù)-應(yīng)用系統(tǒng)-服務(wù)器-機(jī)房(云)的關(guān)系展現(xiàn),建立部門(mén)數(shù)據(jù)資產(chǎn)地圖。
 
  標(biāo)準(zhǔn)化服務(wù)
 
  我們現(xiàn)在存在“一義多詞”,即使用同種文字的人們也經(jīng)常用多種不同的數(shù)據(jù)組合表示同一種概念;還存在“一詞多義”,即在不同場(chǎng)合用同一數(shù)據(jù)的組合來(lái)表示不同的意義。在信息系統(tǒng)里,前者會(huì)導(dǎo)致數(shù)據(jù)冗余浪費(fèi)計(jì)算機(jī)資源,后者會(huì)因?yàn)閿?shù)據(jù)的不一致導(dǎo)致語(yǔ)義理解的偏差。兩者共同影響著信息集成與交換能力,成為當(dāng)前信息化建設(shè)的關(guān)鍵問(wèn)題。
 
  數(shù)據(jù)元標(biāo)準(zhǔn)化是信息技術(shù)標(biāo)準(zhǔn)化的重要組成部分,是信息交換的前提,是信息系統(tǒng)建設(shè)的基礎(chǔ)和運(yùn)行的保證。那么,我們?cè)趺醋龅綌?shù)據(jù)元、數(shù)據(jù)字段的標(biāo)準(zhǔn)化?讓數(shù)據(jù)元在不同環(huán)境、不同應(yīng)用場(chǎng)景下都能夠?qū)崿F(xiàn)快速交換和共享?
 
  我們做了幾個(gè)事情。(1)重復(fù)清洗比對(duì)。就是能告訴你存在哪些重復(fù)的字段,這些字段的定義、長(zhǎng)度、格式是不是一致?系統(tǒng)會(huì)幫你自動(dòng)判斷。(2)根據(jù)同異配置進(jìn)行梳理,系統(tǒng)能夠主動(dòng)地判別出存在哪些同異,比如日期對(duì)應(yīng)的業(yè)務(wù)是否一樣?姓名對(duì)應(yīng)的標(biāo)準(zhǔn)是否一樣?(3)跟國(guó)家標(biāo)準(zhǔn)去比對(duì)。
 
  數(shù)據(jù)元的標(biāo)準(zhǔn)化是形成以標(biāo)準(zhǔn)數(shù)據(jù)元為基礎(chǔ)構(gòu)建的穩(wěn)定數(shù)據(jù)環(huán)境的途徑,是實(shí)現(xiàn)系統(tǒng)間高層次的集成,從根本上克服“數(shù)字鴻溝”,解決“信息孤島”問(wèn)題。數(shù)據(jù)源的標(biāo)準(zhǔn)化,不是說(shuō)中國(guó)所有應(yīng)用系統(tǒng)里面所有的字段都要進(jìn)行標(biāo)準(zhǔn)化,要進(jìn)行標(biāo)準(zhǔn)化的是針對(duì)各個(gè)部門(mén)都要交換共享到的核心業(yè)務(wù)數(shù)據(jù),比如最基本的人口信息、法人信息等,這些信息是要標(biāo)準(zhǔn)化的,是不能夠存在不一致現(xiàn)象的。
 
  數(shù)據(jù)基因系統(tǒng)數(shù)據(jù)元池的建立,梳理分析各部門(mén)、各應(yīng)用系統(tǒng)中出現(xiàn)的相同的、近義的數(shù)據(jù)字段,通過(guò)分析其頻率、數(shù)據(jù)定義及數(shù)據(jù)相互之間關(guān)系(數(shù)據(jù)來(lái)源、數(shù)據(jù)流向等),了解各應(yīng)用系統(tǒng)之間數(shù)據(jù)標(biāo)準(zhǔn)體系的建設(shè)情況,輔助數(shù)據(jù)質(zhì)量問(wèn)題分析。未來(lái)各個(gè)部門(mén)在新建應(yīng)用系統(tǒng)時(shí),采用標(biāo)準(zhǔn)化的數(shù)據(jù)元池,字段要在標(biāo)準(zhǔn)數(shù)據(jù)元池里進(jìn)行勾選;新建的應(yīng)用系統(tǒng)不用做接口,因?yàn)閿?shù)據(jù)的格式、定義都是一致的。
 
  智能化服務(wù)
 
  現(xiàn)在很多城市已建了很多的數(shù)據(jù)庫(kù),人口庫(kù)、交換共享平臺(tái)等,但這些數(shù)據(jù)庫(kù)的運(yùn)行效果怎么樣?到底有哪些資源在里面、在交換、在共享?其實(shí),現(xiàn)在很多都是不清楚的,那么,我們?cè)趺礃涌焖俚貙?shí)現(xiàn)把這些數(shù)據(jù)庫(kù)、各個(gè)應(yīng)用系統(tǒng)中的數(shù)據(jù)、資源形成數(shù)據(jù)資源體系呢?
 
  首先,我們做了數(shù)據(jù)庫(kù)的直接采集;其次,根據(jù)數(shù)據(jù)庫(kù)采集過(guò)來(lái)的數(shù)據(jù)表結(jié)構(gòu)、數(shù)據(jù)字典,快速地生成信息資源,通過(guò)跟前面的標(biāo)準(zhǔn)、模板去比對(duì),我們能夠快速地把它匹配出來(lái),形成資源目錄,告訴其他部門(mén)我有哪些資源可以提供,有條件共享、無(wú)條件共享或是可開(kāi)放。不是我們做到字段級(jí)的共享,而是可以針對(duì)一個(gè)數(shù)據(jù)里面只有某個(gè)字段去進(jìn)行共享,某幾個(gè)字段不能進(jìn)行共享。
 
  模型化服務(wù)
 
  現(xiàn)在大家可以看到交換共享是在做,但是很多交換共享平臺(tái)只是為了交換而交換,做了各種各樣的交換平臺(tái),這些平臺(tái)之間沒(méi)有進(jìn)行打通,接口非?;靵y且難以擴(kuò)展,把原來(lái)小的“信息孤島”變成現(xiàn)在大的“交換孤島”。那么我們?cè)趺磥?lái)解決這樣的一個(gè)現(xiàn)象,我們能不能做到系統(tǒng)與數(shù)據(jù)的一個(gè)分離?
 
  我們基于前面的基礎(chǔ),提供一個(gè)模型化服務(wù)。未來(lái)各個(gè)部門(mén)可以在數(shù)據(jù)基因系統(tǒng)上,去構(gòu)建自己各種各樣的模型庫(kù)。比如,可以分析地區(qū)房?jī)r(jià)與學(xué)區(qū)、人流量之間的關(guān)系;可以基于這個(gè)模型的基礎(chǔ)上去做很多數(shù)據(jù)庫(kù)的設(shè)計(jì),做整個(gè)數(shù)據(jù)框架的設(shè)計(jì),因?yàn)槲覀兊臄?shù)據(jù)云字段在這里面都提供了。我們相當(dāng)于在業(yè)務(wù)人員和技術(shù)人員之間通過(guò)數(shù)據(jù)基因系統(tǒng)架了一座橋梁,業(yè)務(wù)人員可以更好地去了解技術(shù),同時(shí)技術(shù)人員能夠快速的去理解需求。我們可以快速的把我們?cè)O(shè)計(jì)的模型導(dǎo)成表結(jié)構(gòu)的形式、各種各樣模型的形式。
 
  最后我講一下我們上述各種服務(wù)的客戶價(jià)值:模板化服務(wù)能夠幫助客戶快速地建立信息資源體系,資產(chǎn)化服務(wù)能幫助客戶建立城市數(shù)據(jù)資產(chǎn)地圖,標(biāo)準(zhǔn)化服務(wù)能輔助數(shù)據(jù)標(biāo)準(zhǔn)落地,模型化服務(wù)可實(shí)現(xiàn)系統(tǒng)與數(shù)據(jù)分離,智能化服務(wù)能輔助數(shù)據(jù)質(zhì)量問(wèn)題分析。
 
  我們希望數(shù)據(jù)基因能在更多的城市使用,幫助城市實(shí)現(xiàn)底層數(shù)據(jù)基礎(chǔ)扎實(shí)的工作。

責(zé)任編輯:admin