2017年2月15日國脈發(fā)布了數(shù)據(jù)基因系統(tǒng),旨在為政府建立數(shù)據(jù)管理體系提供便捷、可靠的工具支撐,幫助政府梳理數(shù)據(jù)資產(chǎn)清單、統(tǒng)一數(shù)據(jù)口徑、建立數(shù)據(jù)標準、定位數(shù)據(jù)資源、分析資源關(guān)系、設(shè)計管理模型,從而更加有效的提升數(shù)據(jù)資產(chǎn)管理能級,實現(xiàn)數(shù)據(jù)驅(qū)動服務創(chuàng)新。
那么該如何理解數(shù)據(jù)基因?數(shù)據(jù)基因系統(tǒng)能解決哪些問題?價值究竟在哪里?本文從概念到問題再到實際應用場景,為大家詳細介紹數(shù)據(jù)基因系統(tǒng)。
如何理解數(shù)據(jù)基因?
DIKW體系認為數(shù)據(jù)(Data)、信息(Information)、知識(Knowledge)和智慧(Wisdom)之間是層層遞進的關(guān)系,從數(shù)據(jù)里挖到信息,從信息里得到知識,從知識里獲取智慧。
表1.數(shù)據(jù)、信息、知識、智慧四者比較
在這個金字塔體系中,我們認為數(shù)據(jù)基因位于數(shù)據(jù)層和信息層,它賦予數(shù)據(jù)特定的含義,與數(shù)據(jù)一起構(gòu)成了我們認知信息的基礎(chǔ)。
圖1.數(shù)據(jù)基因在DIKW體系中的位置
實際上,我們認為數(shù)據(jù)基因系統(tǒng)是管理系統(tǒng)的系統(tǒng),從業(yè)務出發(fā),到應用系統(tǒng)、再到數(shù)據(jù)庫、數(shù)據(jù)表,甚至到驅(qū)動服務,是數(shù)據(jù)大管家,實現(xiàn)從管網(wǎng)絡、系統(tǒng)到管數(shù)據(jù)的躍遷。
解決哪些問題?
· 缺乏完整、統(tǒng)一的信息資源體系
目前各個地方開展信息資源目錄體系建設(shè)工作,往往存在部門提供什么梳理什么,部門中很少存在某個人員完全掌握該部門信息資源,需不同科室之間進行調(diào)研、梳理,通常存在不清楚自己部門到底有哪些、不清楚其他部門有哪些信息資源,缺乏完整、統(tǒng)一的信息資源體系。
· 應用系統(tǒng)建設(shè)分散、數(shù)據(jù)關(guān)系混雜
各級地方政府和部門在開展信息化建設(shè)時往往各自為政,各自建設(shè)應用系統(tǒng),沒有構(gòu)建統(tǒng)一的基礎(chǔ)信息平臺,形成了許多信息孤島。由于缺乏統(tǒng)一的信息系統(tǒng)建設(shè)標準,造成各個信息系統(tǒng)的數(shù)據(jù)口徑不一致,系統(tǒng)、數(shù)據(jù)之間的關(guān)系不清楚,使整個信息系統(tǒng)構(gòu)架中數(shù)據(jù)的采集、存儲、交換、加工、利用等各部分間不能循環(huán)互動,系統(tǒng)中的數(shù)據(jù)無法有效共享,造成了信息資源利用率低。
· 數(shù)據(jù)不一致、不準確
在以數(shù)據(jù)交換共享時,遇到的最大問題就是數(shù)據(jù)不一致和不準確,舉幾個實際例子:
1、某系統(tǒng)個人信息的姓名是20位,另一系統(tǒng)的姓名是30位,在數(shù)據(jù)同步的時候就會出現(xiàn)無法同步的問題;
2、一個系統(tǒng)數(shù)字0代表男、數(shù)字1代碼女、數(shù)字2是未知,另一個系統(tǒng)字母M代表男、字母F代碼女,這是一個代碼不一致問題;
3、在不同系統(tǒng)中存在“機構(gòu)名稱”、“單位名稱”、“公司名稱”,不知道是否為同一個含義;
4、如果是同一個企業(yè),某個系統(tǒng)里面編碼是0001,另一個系統(tǒng)里是0002,其實代表的是同一條數(shù)據(jù)。
· 數(shù)據(jù)標準管理框架缺失
目前很多部門的應用系統(tǒng)一般是建立在數(shù)據(jù)倉庫或基礎(chǔ)數(shù)據(jù)庫基礎(chǔ)上,數(shù)據(jù)積累已有一定的規(guī)模。但由于缺乏統(tǒng)一的數(shù)據(jù)標準規(guī)范,同時缺乏數(shù)據(jù)基于業(yè)務的理解,導致新建或改造升級的系統(tǒng)建設(shè)缺乏標準先行的原則,難以實現(xiàn)數(shù)據(jù)標準“循序漸進、不斷完善”的要求。
數(shù)據(jù)基因系統(tǒng)的價值在哪里?
· 快速建立信息資源體系
數(shù)據(jù)基因系統(tǒng)對比篩選出城市核心業(yè)務部門的核心業(yè)務的信息資源建立整個信息資源體系建設(shè)的模板庫,通過模板庫城市各單位可直接查閱相關(guān)數(shù)據(jù)元、信息資源模板,以直接沿用或是自定義修改的方式對模板進行選擇性的編目,達到各部門政務信息資源快速梳理、信息資源體系快速架構(gòu)的目標。
圖2.模板設(shè)計
· 建立數(shù)據(jù)資產(chǎn)地圖
數(shù)據(jù)基因系統(tǒng)通過對城市機房、服務器、應用系統(tǒng)、數(shù)據(jù)庫等數(shù)據(jù)資產(chǎn)的梳理,建立部門數(shù)據(jù)資產(chǎn)清單,通過系統(tǒng)建立之間的相互關(guān)系,理清楚系統(tǒng)與系統(tǒng)之間、系統(tǒng)與數(shù)據(jù)庫、表之間、數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,實現(xiàn)數(shù)據(jù)-數(shù)據(jù)表-數(shù)據(jù)庫-應用系統(tǒng)-服務器-機房(云)的關(guān)系展現(xiàn),建立部門數(shù)據(jù)資產(chǎn)地圖。
圖3.資源關(guān)系分析
· 輔助數(shù)據(jù)質(zhì)量問題分析
通過數(shù)據(jù)基因系統(tǒng)數(shù)據(jù)元池的建立,梳理分析各部門、各應用系統(tǒng)中出現(xiàn)的相同的、近義的數(shù)據(jù)字段,通過分析其頻率、數(shù)據(jù)定義及數(shù)據(jù)相互之間關(guān)系(數(shù)據(jù)來源、數(shù)據(jù)流向等),了解各應用系統(tǒng)之間數(shù)據(jù)標準體系的建設(shè)情況,輔助數(shù)據(jù)質(zhì)量問題分析。
圖4.數(shù)據(jù)元關(guān)系分析
· 輔助數(shù)據(jù)標準的落地
通過對各部門、各應用系統(tǒng)數(shù)據(jù)元池的清洗比對,篩選出各部門共性、關(guān)鍵的主數(shù)據(jù),建立涉及核心數(shù)據(jù)的標準字段池,對字段的命名、格式、長度等屬性進行規(guī)范,依托標準數(shù)據(jù)元池進行信息資源信息項的編目,嚴格控制新增字段,實現(xiàn)共性數(shù)據(jù)元的統(tǒng)一標準規(guī)范,推動數(shù)據(jù)規(guī)范的落地執(zhí)行,建立數(shù)據(jù)模型標準化定義映射,推進數(shù)據(jù)標準化規(guī)范的落地實施。
圖5.數(shù)據(jù)元池管理
· 輔助系統(tǒng)開發(fā)運維
數(shù)據(jù)基因系統(tǒng)提供相關(guān)數(shù)據(jù)庫、基礎(chǔ)庫、主題的模型設(shè)計功能,實現(xiàn)不同系統(tǒng)建設(shè)需求、應用場景下,通過標準數(shù)據(jù)元池、信息資源的組合構(gòu)建應用模型,圍繞構(gòu)建的模型可以實現(xiàn)快速構(gòu)建應用系統(tǒng)數(shù)據(jù)表結(jié)構(gòu)設(shè)計。當各部門新增需求或者系統(tǒng)上線維護后提出修改時,可通過數(shù)據(jù)基因系統(tǒng)查看現(xiàn)有系統(tǒng)的結(jié)構(gòu),設(shè)計新的數(shù)據(jù)結(jié)構(gòu)或修改數(shù)據(jù)結(jié)構(gòu)來輔助系統(tǒng)開發(fā)運維。
圖6.模型設(shè)計服務
總結(jié)
目前隨著政務大數(shù)據(jù)的發(fā)展,政府對數(shù)據(jù)標準化管理的需求正日益增加,未來數(shù)據(jù)基因系統(tǒng)將是連接業(yè)務、數(shù)據(jù)、系統(tǒng)與服務的核心基礎(chǔ)設(shè)施,可擴展的數(shù)據(jù)基因系統(tǒng)將能夠產(chǎn)生更多更有價值的應用場景。
作者:國脈信息資源研發(fā)中心副主任 王路燕