點擊上方圖片鏈接回看年會視頻 

11月26-27日,由中國社會科學院信息化研究中心、北京國脈互聯(lián)信息顧問有限公司、舟山國脈集團有限公司聯(lián)合主辦的年度改革創(chuàng)新研討盛會(第16年)——“2020智慧中國年會”在北京召開,以“十四五前瞻與智治社會建設”為主題,共有來自全國部委、省、市、區(qū)縣電子政務、智慧城市、大數(shù)據(jù)主管領導、行業(yè)專家、企業(yè)代表、主流媒體千余人參會。

本文系國脈集團產(chǎn)品經(jīng)理鐘乙喬于11月26日下午在“2020智慧中國年會”上的“新基建賦能數(shù)字社會——數(shù)字經(jīng)濟篇”分論壇上的演講,演講主題為“數(shù)據(jù)母體-數(shù)字基建底座”,內(nèi)容通過現(xiàn)場速記整理,未經(jīng)本人審核。

鐘乙喬.jpg

「國脈集團產(chǎn)品經(jīng)理 鐘乙喬」

 

<--------------------以下為演講內(nèi)容------------------>

各位領導、各位嘉賓,大家下午好,我是網(wǎng)脈科技產(chǎn)品經(jīng)理鐘乙喬,前面各位領導講了關于數(shù)字新基建的一些看法、思路和運行方式,作為數(shù)字經(jīng)濟的一個底層,接下來我給大家介紹數(shù)據(jù)母體——數(shù)字基建底座。

一、建設背景

(一)數(shù)據(jù)治理的難點痛點

在數(shù)字新基建的發(fā)展環(huán)境下,我們長期關注數(shù)據(jù)治理這個重要關注點。只有做好數(shù)據(jù)治理才能把新基建的最基層工作做好,數(shù)據(jù)治理的難點、痛點主要體現(xiàn)在以下幾方面。

一是數(shù)據(jù)標準化低,很多業(yè)務公司、技術公司在創(chuàng)建一些數(shù)據(jù)庫或者一些表字段時,對于字段的規(guī)范、長度和類型都沒有做到極致的標準化。

二是數(shù)據(jù)交換成本高,正因為數(shù)據(jù)不標準,這些問題就導致做數(shù)據(jù)交換的時候成本比較大。比如實際項目需要外部接口或者底層數(shù)據(jù)去交換的時候,就要花大量的時間和人力做對接,甚至完成對接以后的結果并不是非常理想。

三是底層數(shù)據(jù)重視程度低,業(yè)務數(shù)據(jù)的基礎庫和數(shù)據(jù)元池存在著缺失。

四是跨行業(yè)數(shù)據(jù)融合困難,發(fā)生跨業(yè)務數(shù)據(jù)融合時非常困難。數(shù)據(jù)之間無法完成精準的供需匹配。

這些都導致多網(wǎng)并存、信息孤島、二次錄入、數(shù)據(jù)壁壘的現(xiàn)象存在。

(二)數(shù)據(jù)標準化影響數(shù)據(jù)應用質量

在規(guī)劃方面,很多大型項目在開展的前期缺乏數(shù)據(jù)規(guī)劃,缺乏系統(tǒng)性的框架結構;

在標準依據(jù)方面,數(shù)據(jù)標準的依據(jù)標準都是不一的,有些使用了國家標準,有些使用了行業(yè)標準,有些甚至沒有使用任何標準,這導致了數(shù)據(jù)定義各異;

在應用方面,我們對于業(yè)務字段和技術字段會產(chǎn)生一些歧義,同樣的字段名稱在不同的業(yè)務和技術體系當中代表的意思不同,可能造成邏輯關系脫節(jié)現(xiàn)象。

所以要做好數(shù)據(jù)標準化,做好字段的標準化,對象定義的標準化,代碼的標準化,還有業(yè)務指標的標準化等。

(三)統(tǒng)一規(guī)范的數(shù)據(jù)元是數(shù)據(jù)標準化的基礎

數(shù)據(jù)元是數(shù)據(jù)的最小的單元,它的質量好壞直接影響對語義的認知,在我們的數(shù)據(jù)傳遞、流通、交換、融合、共享當中,它都是最底層的、最基礎的要求,數(shù)據(jù)元是數(shù)據(jù)的“底層建筑”、在數(shù)據(jù)體系中具有基礎地位,數(shù)據(jù)母體是新基建的底層。

(四)政策要求做好數(shù)據(jù)化標準工作

近年來,國家及地方相關政府主管部門接踵發(fā)布各自領域數(shù)據(jù)元標準和數(shù)據(jù)元目錄,如國家標準化委員會《電子政務數(shù)據(jù)元標準》、北京《法人基礎信息數(shù)據(jù)元目錄規(guī)范》、安徽《公共信息用信息數(shù)據(jù)元目錄》、遼寧《漁業(yè)信息化基礎數(shù)據(jù)元》、湖南《地名數(shù)據(jù)元規(guī)范》等。

二、數(shù)據(jù)母體

(一)產(chǎn)品概念

數(shù)據(jù)母體是基于公共數(shù)據(jù)元與電子政務主題詞的數(shù)據(jù)治理綜合服務平臺。它提供高質量標準化的服務,為數(shù)據(jù)治理與數(shù)據(jù)質量再造提供綜合性解決方案,構建全球數(shù)據(jù)體系的語言詞典——數(shù)據(jù)元字典。

數(shù)據(jù)母體主要從“軟件、數(shù)據(jù)、咨詢、服務”四個方面為數(shù)據(jù)治理提供服務。軟件方面,我們有數(shù)據(jù)治理的綜合服務平臺、數(shù)據(jù)標準發(fā)源地和數(shù)據(jù)質量標準檢測場、標準化數(shù)據(jù)的加工工具、原始數(shù)據(jù)質量的診斷工具;數(shù)據(jù)方面,收錄了國家出臺的標準文件,收錄了電子政務主題詞、公共數(shù)據(jù)元,還有標準術語和標準分類等,為數(shù)據(jù)治理提供一套標準政務數(shù)據(jù)設施,為異構數(shù)據(jù)間的共享、轉換、互操作、質量管理、內(nèi)容加工與服務等提供基礎;咨詢方面,當用戶有需求,我們從行業(yè)領域、時間維度為用戶去梳理應該涉及的最基層的標準,還包含一些指標評估等的咨詢服務;服務方面,我們提供數(shù)據(jù)服務和產(chǎn)品服務,也可以數(shù)據(jù)+產(chǎn)品組合的方式來做好數(shù)據(jù)治理。

(二)框架結構

數(shù)據(jù)母體框架.png

框架結構圖

產(chǎn)品框架結構主要分為數(shù)據(jù)來源、存儲層、功能層及應用場景。其中數(shù)據(jù)來源主要為國家標準文件、行業(yè)標準文件及其他;存儲層包含公共數(shù)據(jù)元池、電子政務主題詞庫、數(shù)據(jù)模型庫及標準數(shù)據(jù)元池;功能層主要包含池庫定制、數(shù)據(jù)比對、數(shù)據(jù)清洗、數(shù)據(jù)元關聯(lián)分析、標準設計、模型應用等功能;主要的應用場景包含標準查詢、數(shù)據(jù)建模、質量分析及數(shù)據(jù)檢測。

(三)運行邏輯

運行邏輯是依托于數(shù)據(jù)母體當中的數(shù)據(jù),經(jīng)過清晰比對,把標準數(shù)據(jù)存入到公共數(shù)據(jù)元池當中,通過對數(shù)據(jù)的定義和業(yè)務的定義來對應用場景做設定,構建數(shù)據(jù)模型。再將這些數(shù)據(jù)分層分級分類,形成數(shù)據(jù)集市以供用戶按需選擇。另一方面,通過規(guī)則配置對用戶原有數(shù)據(jù)進行質量檢測,將結果生成診斷的報告,附加咨詢梳理服務給出對原有數(shù)據(jù)情況的整改建議。

實例:在政務大廳或者網(wǎng)上辦事的時候,有些材料會寫來源渠道是共享還是自備,共享和自備的前提是底層數(shù)據(jù)要統(tǒng)一和規(guī)范,也就是說大家所獲取到的材料名稱必須與實際數(shù)據(jù)庫里的數(shù)據(jù)名稱一致,不能出現(xiàn)歧義,不然數(shù)據(jù)無法共享。

(二)產(chǎn)品優(yōu)勢

1.數(shù)據(jù)量全:目前已收錄國家發(fā)布的標準文件1764份,公共數(shù)據(jù)元372883條,范疇目錄190個、范疇表政務主題詞24151個,行業(yè)主題詞16180個,標準術語1909個、分類編碼1304個,區(qū)劃地址63895個(部分細化到省市縣區(qū)街道樓道)。

2.顆粒度細:收錄的數(shù)據(jù)細化到了數(shù)據(jù)元標識符、數(shù)據(jù)元類型、數(shù)據(jù)元表示、標準文件標準號、版本(年代)號、ICS編碼、CCS編碼、發(fā)布機構。

3.自定義配置:數(shù)據(jù)維度、領域可配置、數(shù)據(jù)模型可配置、清洗規(guī)則可配置、診斷報告可配置。

(三)應用場景

1.快速建模生成數(shù)據(jù)元基礎庫。基于場景需求定制,特別是各地政府對數(shù)據(jù)元采集、整理、建庫的規(guī)劃需求,通過標準數(shù)據(jù)元組合,可快速建模形成法人、船舶等各行業(yè)數(shù)據(jù)元基礎庫。

2.輔助構建標準核心數(shù)據(jù)元池。核心數(shù)據(jù)元池建立,是各地政府信息資源標準化的基礎。根據(jù)實際需求,梳理出核心數(shù)據(jù)元,并通過數(shù)據(jù)元清洗比對、標準化處理和智能標注關聯(lián),構建標準的核心數(shù)據(jù)元池。

3.行業(yè)數(shù)據(jù)元評估清洗標準化。助力提升數(shù)據(jù)元質量、規(guī)范數(shù)據(jù)交換底層。

4.事項梳理標準數(shù)據(jù)表單建設。平臺支持標準數(shù)據(jù)元自由組合、關聯(lián)、建模,可協(xié)助快速創(chuàng)建和生成標準數(shù)據(jù)表單,且數(shù)據(jù)元標準規(guī)范統(tǒng)一,也有助于“多表合一”,提升事項梳理效率和標準化程度。

5.軟件質量問題與標準化檢測。借助相關數(shù)據(jù)元標準、體系、方法,可在一定程度上輔助軟件系統(tǒng)在研制和維護過程中形成適用于各領域系統(tǒng)數(shù)據(jù)質量問題的高效預防措施和最佳解決方案。

6.基于數(shù)據(jù)服務創(chuàng)建應用模型。通過大數(shù)據(jù)分析應用、自定義報表,實現(xiàn)數(shù)據(jù)的可視化展示;通過組織畫像、個人畫像等數(shù)據(jù)多維度分析,清晰了解業(yè)務對象的現(xiàn)狀與需求。

三、產(chǎn)品價值

(一)全要素建立數(shù)據(jù)資源體系

“數(shù)據(jù)母體”支持海量數(shù)據(jù)元存儲,用戶可根據(jù)需要批量導入數(shù)據(jù)元到其專項數(shù)據(jù)庫或系統(tǒng),對其數(shù)據(jù)元資產(chǎn)進行存儲,并利用平臺提供的數(shù)據(jù)元目錄、數(shù)據(jù)元資產(chǎn)統(tǒng)計、數(shù)據(jù)元清洗、數(shù)據(jù)元校驗、智能關聯(lián)等模塊,有效管控數(shù)據(jù)元。

(二)全階段推進數(shù)據(jù)標準落地

“數(shù)據(jù)母體”收錄千余份涵蓋國際、國家、地區(qū)、行業(yè)權威的數(shù)據(jù)元及數(shù)據(jù)元值域的標準規(guī)范、數(shù)據(jù)字典等,并持續(xù)擴充,借助數(shù)據(jù)元標準化處理,推動數(shù)據(jù)元標準落地;用戶對數(shù)據(jù)元標準的選擇、反饋,也有助于各行業(yè)數(shù)據(jù)元標準的優(yōu)化改造,并進一步提升數(shù)據(jù)元“上層建筑”數(shù)據(jù)、信息資源、事項等的標準化。

(三)全流程提升數(shù)據(jù)質量

依托“數(shù)據(jù)母體”,對數(shù)據(jù)元進行標準化檢測評估和可視化統(tǒng)計分析等,有助于從數(shù)據(jù)元層面排查、追溯和定位數(shù)據(jù)質量問題發(fā)生的癥結所在,包括數(shù)據(jù)元名稱同義重復、值域格式不規(guī)范、數(shù)據(jù)元與其值域不關聯(lián)等;基于問題有針對性地對數(shù)據(jù)元進行清洗比對、標準化、智能標注關聯(lián)等,可有效提升數(shù)據(jù)元及數(shù)據(jù)質量。

(四)全方面打造共享開放應用

“數(shù)據(jù)母體”支持數(shù)據(jù)元消費者、提供者、服務者、運營者等注冊入駐,并提供豐富的API和多樣化數(shù)據(jù)采集方式,實現(xiàn)數(shù)據(jù)元產(chǎn)業(yè)鏈內(nèi)外各類資源不斷集聚;平臺用戶基于交易和支付系統(tǒng),可進行數(shù)據(jù)元相關資源與服務流通,促進數(shù)據(jù)元資源應用變現(xiàn)與服務創(chuàng)新。

四、核心服務

(一)數(shù)據(jù)元質量檢測服務

利用數(shù)據(jù)母體,根據(jù)預先配置的規(guī)則、算法和度量指標等,對客戶擁有的數(shù)據(jù)元資產(chǎn)進行在線質量檢測,包括數(shù)據(jù)元同義重復、標準化程度等,并可視化呈現(xiàn)檢測結果;同時根據(jù)客戶需要,可由專業(yè)咨詢?nèi)藛T提供深度數(shù)據(jù)元質量檢測評估分析報告與相關改進、優(yōu)化方案等服務。

(二)數(shù)據(jù)元池庫定制服務

根據(jù)客戶需求,通過標準數(shù)據(jù)元選取組合、清洗比對、智能標注關聯(lián)及數(shù)據(jù)元目錄編制、模型創(chuàng)建等,快速構建各種領域、行業(yè)、主題的標準數(shù)據(jù)元基礎庫、核心數(shù)據(jù)元池和核心數(shù)據(jù)字典,且支持通過API開放相關數(shù)據(jù)庫授權服務。

(三)數(shù)據(jù)元建模服務

提供大量數(shù)據(jù)元模板,用戶可自主選購自己需要的標準數(shù)據(jù)元模板;當標準數(shù)據(jù)元模板無法滿足需求時,用戶可借助數(shù)據(jù)元公共服務平臺、以標準字段自定義創(chuàng)建契合自身業(yè)務需求和業(yè)務應用的數(shù)據(jù)元模型。

(四)數(shù)據(jù)元在線標準設計服務

針對不同行業(yè)、不同主體,基于現(xiàn)有權威國際/國家/地區(qū)/行業(yè)數(shù)據(jù)元標準和標準數(shù)據(jù)元,結合實際應用場景、行業(yè)特色和客戶需求,在線設計、整理、編目、編制符合需求的各種領域/行業(yè)、主題的數(shù)據(jù)元標準;提供數(shù)據(jù)元標準導出、整理成符合相關格式規(guī)范的數(shù)據(jù)元標準文件等服務.

五、應用案例

數(shù)據(jù)母體已經(jīng)在多省市,多個地區(qū),項目上實際應用。

浙江省—— “最多跑一次”全省事項數(shù)據(jù)串梳理

深圳市——政務信息資源目錄白皮書(2017)及核心數(shù)據(jù)字典項目

浙江省——全省核心標準數(shù)據(jù)元池建設

海南省——法人庫、人口庫基礎數(shù)據(jù)元\擴展數(shù)據(jù)元信息梳理

公安部——大數(shù)據(jù)時代基礎信息采集錄入規(guī)范研究

南寧市——政務信息資源目錄梳理服務項目

舟山市——舟山市民生基礎信息數(shù)據(jù)標準和交換規(guī)范編制

上海徐匯區(qū)——政務信息資源目錄體系建設

北京西城區(qū)——大數(shù)據(jù)資源目錄梳理服務項目

佛山三水區(qū)——政務信息資源資產(chǎn)清單梳理

···

數(shù)據(jù)母體產(chǎn)品今天就介紹到這里,謝謝大家。



走進“2020智慧中國年會”

2020智慧中國年會新聞專場

image.png

掃描二維碼直接進入


注:獲取更多會議資訊及嘉賓演講資料,歡迎登錄“2020智慧中國年會官網(wǎng)”,或關注“國脈數(shù)字智庫”公眾號。

image.png

責任編輯:hongqiong