中國信通院何寶宏:數據治理髮展趨勢

發佈時間:2023-12-21 13:48:41 | 來源:中國網 | 作者:辛文 | 責任編輯:趙茜

12月20日,2023數據資産管理大會在京召開,中國信通院何寶宏受邀出席並做數據治理髮展趨勢報告。

數據作為新型生産要素,已快速融入生産、分配、流通、消費和社會服務管理等各個環節,深刻改變著生産方式、生活方式和社會治理方式。國家層面,數據相關戰略佈局不斷加強。2022年 6月“數據二十條”發佈,對數據要素未來的基礎制度建設做出了重要佈局,提出要構建數據産權、交易流通、收益分配、安全治理等制度體系。其核心目的是提高數據要素供給數量和品質,充分保障數據處理者使用數據和獲得收益的權利,充分實現數據要素價值、促進全體人民共用數字經濟發展紅利。2023年10月,國家數據局正式掛牌成立,統籌推進國家數據要素與數字中國戰略協同發展,核心任務一是推動數據基礎制度建設,發揮數據要素乘數效應;二是推動數據資源整合與利用,充分激活數據要素潛能;三是統籌推動數據基礎設施建設,持續繁榮數據要素産業生態;四是推進數字中國和數字經濟發展,做大做強做優數字經濟。

産業方面,近年來隨著通用人工智慧技術的飛速發展,對於數據治理提出了新的需求。大規模、多樣化、高品質的訓練數據集是大模型建設的核心競爭力,Meta最新發佈的大模型的訓練數據集達到了4828GB,是5年前GPT-1數據集規模的一千倍。吳恩達等科學家提出了以“數據為中心的人工智慧”,希望通過系統性地改進和增強數據集,從而提高人工智慧模型的準確性和可用性。然而面向人工智慧的數據治理體系剛剛開始發展,仍面臨諸多挑戰,例如高品質數據集的獲取、數據集品質的評價與提升、數據資源的智慧財産權保護、生成內容的管理等。這些都對數據治理的技術和方法論提出了更高的要求。

從企業層面來看,數據是企業知行合一的核心要素。一方面數據是業務在數字世界的記憶,它的品質、安全、連通性對業務本身至關重要。另一方面企業通過數據分析技術,將業務沉澱的數據加工成為資訊、知識甚至是智慧,以輔助提升企業的決策能力,驅動下一輪的經營行為。經過多年發展,一些頭部機構基本實現了業務線上化,積累了大量的數據,現在最迫切的命題就是如何構建數據驅動的能力,讓自動化的決策能力和數據驅動的文化深入到企業的每個角落,以形成企業新的競爭優勢。

數據治理的目的是數據的可得、可用、好用,釋放數據價值,最終實現數據驅動的企業運營。只有通過對數據科學治理,數據在企業內部的流動才具有意義,不同維度的數據匯聚在一起,才能創造新的價值。

近年來國家和行業陸續發佈相關政策文件,鼓勵和指導企業開展數據管理工作。《大數據産業發展十四五規劃》明確提出“加強數據“高品質”治理”,《金融科技發展規劃(2022—2025年)》要求金融機構“建立協調一致、涵蓋數據全生命週期的數據治理體系”,通信、製造、民航等行業管理機構也陸續發佈政策文件,加強推動本行業數據管理工作。

2020年起中國電子聯合會牽頭數據管理能力成熟度評估貫標工作,經過4年的推廣,DCMM已經成為了國內數據治理的方法論。2023年DCMM貫標企業量增加108%,由上年度的9個細分領域增加到近20個細分領域,其中通信業、銀行業、電力業數據管理能力相對領先。

頭部企業的數據管理工作已進入深水區,企業數據管理呈現4大趨勢。一是大量企業開始成立專職團隊,增強數據管理執行效率;二是發佈獨立數據戰略,推動數據管理精準開展;三是開展專項行動,進一步提升數據供給品質。四是建立統一技術平臺,消除協同難點。

數據治理領域的六個趨勢

數據管理與數據開發的融合在加速,新的數據開發範式正在形成。數據開發能力是企業數據生産力的核心,大型銀行、大型運營商已經構建了較為強大的數據治理體系,但仍然存在數據需求不暢通、開發治理兩張皮、數據開發效率低、跨域協同難推進等問題。

DataOps是數據開發的一種新範式,最早由IBM和Gartner提出,中國信通院在逐步推動DataOps理念在國內的實踐。DataOps是一種敏捷數據開發的理念,通過對數據相關人員、工具和流程的重新組織,打破協作壁壘,構建集開發、治理、運營于一體的自動化數據流水線,不斷提高數據産品交付效率與品質。為指導企業開展DataOps工作,信通院牽頭定義了DataOps能力框架,將DataOps的流水線分為四個域,分別是研發、交付、運維和價值。DataOps體系的運轉還需要三個關鍵的保障職能,分別是組織管理、系統工具和安全管控。

由信通院牽頭的標準組織正在完善DataOps標準體系, 2022年底標準組完成了數據研發管理的標準,並在農行、工行、浙江移動、江蘇移動等領先機構進行了評估驗證;今年標準組發佈了《DataOps實踐指南1.0》,已經完成了系統工具的標準化工作,將啟動交付、運維兩個標準的制定; 2024年將進一步完善標準體系,持續推動DataOps理念在國內落地。

大型機構正面臨數據統一納管的難題。由於大型機構分支機構多、業務體系龐雜、數據平臺建設缺乏統一規劃,導致無法在集團層面形成統一的數據管理與應用視圖,集團內數據共用和流通的成本較高,難以整體激活數據的價值。有部分大型機構嘗試通過統一物理基礎設施來解決這一問題,這種模式依賴於高層強有力的推動力,且成本和代價較大。

數據編織(DataFabric)是一種新崛起的數據管理概念,目的是實現一種靈活的、可重用的數據整合方法和服務,從而能夠跨多平臺支援不同的數據操作和分析任務。核心思路是通過增強數據目錄、數據虛擬化、主動元數據等技術,將大型機構內多個數據平臺進行邏輯集中管理,避免物理集中帶來的重復建設,實現數據在大型機構內的統一納管、充分共用、融合分析與應用。國內外已經有一批企業開始提供數據編織的解決方案,信通院牽頭的標準組織已經啟動數據編織的研究和標準化工作,明年將發佈相關的研究成果。  

信通院在2017年發佈的《數據資産管理實踐白皮書1.0》中提出了數據資産管理的概念,試圖建立一種新的理念,即要面向數據價值開展數據的管理工作,經過6年的時間迭代,白皮書已經更新到了6.0,成為了國內開展數據資産管理比較權威的理論框架。白皮書將數據資産管理分為數據資源化和數據資産化兩個階段。其中,數據資産化涉及數據資産估值、數據資産運營、數據資産流通三大核心活動,主要目的是擴大數據資産應用範圍,顯性化數據資産價值收益。

為了讓業務團隊更好的理解數據資産、使用數據,需要對數據資産進行運營,持續地推動數據資産價值釋放。信通院聯合30家企業,提出具有普適性的數據資産運營框架,定義了數據資産的規劃、識別、應用、推廣、優化等關鍵環節,包括8大能力域、22個能力項和200余條能力要求,以解決企業數據資産摸不清、數據資産運營能力差、數據資産價值難發揮等問題。

2023年8月,財政部正式發佈《企業數據資源相關會計處理暫行規定》,並於2024年1月1日開始施行,指出現階段數據資源會計處理應當按照企業會計準則相關規定執行。但是從數據資源到可以入表的數據資産,中間還有很多的難點需要一一擊破,特別是從價值評估的角度,品質因素、應用因素、成本因素和法律因素都會對結果形成關鍵的影響。關於數據資産估值,業界有很多探索,但還都是停留在方法論層面。我們認為企業圍繞數字化場景來進行非貨幣化的價值評估是比較現實的,在非貨幣化評估的基礎上,未來可以進行貨幣化的轉化。當前我們正在和一些頭部央國企、銀行,圍繞企業數據應用場景開展數據資産估值落地實踐,制定了七大估值步驟和詳細的實施方案,預計明年年初將産出首個比較細粒度的估值實踐,為數據資産入表做好前期準備。

通用人工智慧的發展,使得數據與演算法的邊界更加模糊,數據嵌入到了模型的生成中,數據品質與安全直接影響模型結果。然而面向人工智慧的數據治理面臨諸多挑戰,需要關注三個方面的問題,一是方法論缺失,目前,面向人工智慧數據治理的方法剛剛開始,尚未形成類似DAMA、DGI等結構化數據管理的框架,相關的技術工具也不成熟,亟需從理論框架、技術工具、産業實踐等方面構建體系;二是數據集品質評價體系不完善,面向人工智慧訓練的數據集品質評價體系不同於傳統結構化數據,除了六性原則,還需要考慮代表性、可追溯性等維度,同時還得兼顧公平性、非歧視性等因素,需要量身定制的工程化能力;三是數據安全與隱私保護的挑戰,大模型生成過程中涉及大量安全問題和隱私問題,包括知識侵權、個人資訊的違規收集、數據不安全傳輸、數據惡意篡改等內容,如何在模型生産、使用、運營整個全生命週期建立起數據安全和隱私保護能力,需要進一步探索。

目前,中國信通院正在積極探索推進人工智慧數據治理的發展。由中國信通院牽頭,聯合30多家企業,已啟動編寫《人工智慧數據治理白皮書》,面向人工智慧數據治理的核心問題,總結方法論和實踐體系,幫助企業構建全面的數據治理能力。人工智慧數據安全風險評價標準也正在制定過程中,旨在指導企業管理好自身數據,避免數據洩露,保護好用戶隱私。此外,面向高品質數據集,我們將推進可信數據集流通及品質評價方法的標準制定,定義數據品質評價維度和評價方法,形成數據工程化的方法。

隨著數據資源整合共用與開發利用進程加快,數據安全進入了流通安全的深水區,組織機構的數據資源將逐漸由在組織“內”流通向在組織“外”流通演進。流通環節責任主體增多,流通頻次和範圍逐步增加,數據安全的風險暴露面也隨之增加,需要面向責任主體和流通環節設計更細緻的數據安全責任劃分。

其次,人工智慧技術快速應用於各行業場景,在驅動數據分類分級、數據安全風險監測等數據安全治理工作向智慧化、高效化、精準化方向演進的同時,也帶來了新的數據安全問題。

第三,隨著數據生態日益複雜,各種數據角色陸續進場,安全風險愈演愈烈,安全能力運營愈發關鍵。數據安全運營能力的構建能夠打破各組織既有數據安全産品間的壁壘,實現策略的有效整合,是提升數據安全工作成效的關鍵。

中國信通院持續研究數據安全治理與風險防控體系,推出數據安全治理能力評估框架,這套評估框架不僅定義了數據安全治理的概念和細則,同時也配套了相應的能力建設的方法論,能夠指導企業了解自身數據安全治理現狀,評估差距,促進企業開展能力建設。結合行業監管要求,我們推出了面向金融、汽車等領域的評估專項,幫助企業以評促建,查缺補漏,提升數據安全治理能力。

總結來看,數據治理有六個大的發展趨勢,一是國內數據管理方法論的正在形成,DCMM評估在各行業逐漸普及;二是數據管理與數據開發的融合正在進行,DataOps體系正當其時;三是數據編織構建下一代數據架構,極大提升數據管理效率;四是數據管理向資産管理躍遷,資産評估和資産運營理論框架進一步細化;五是面向人工智慧的數據管理需求迫切,亟需構建面向AI的數據治理體系;六是數據安全落地規模與深度逐漸加快,需要關注數據流通安全、人工智慧數據安全以及數據安全運營等新的發展方向。