2024515日舉辦的DataOps發展大會上,中國資訊通信研究院雲計算與大數據研究所大數據與智慧化部副主任王妙瓊對《面向人工智慧的數據治理的實踐指南(1.0)》(下稱《指南》)進行深度解讀。

 


面向人工智慧的數據治理(DG4AI,Data Governance for Artificial Intelligence)是指在人工智慧應用中管理和控制數據的過程與實踐,以確保數據的品質、可靠性、安全性與合規性,使得數據能夠被準確地用於訓練和部署AI模型,同時保護數據的隱私和安全。

 

在以大模型為代表的強人工智慧技術快速發展的背景下,《指南》以數據治理為抓手,通過對面向人工智慧的數據治理産生的背景、遇到的挑戰進行分析,創新性地提出了面向人工智慧全生命週期的治理實踐方法。《指南》的發佈為人工智慧場景中數據治理路徑指明瞭方向,使數據治理的價值能夠在時人工智慧時代背景下最大化激活。

 

《指南》從“數據治理”的發展歷程展開,點明當前大模型時代數據治理遇到的問題,後對於“面向人工智慧的數據治理”概念進行定義,並從不同維度分析面向人工智慧的數據治理與傳統的數據治理的差異。

 

《指南》將人工智慧數據治理階段劃分為“數據收集”、“數據預處理”、“模型推理”等9個階段,提出治理對象包括“原始多模態數據集”、“標簽數據集”、“訓練數據集”等4類對象。而後明確每個階段對應的治理目標與方法。

 

《指南》明確面向人工智慧數據治理的三大主要工作,即“數據品質”、“數據安全與隱私”和“數據倫理”,併為企業提供“治理方法”及“技術手段”的實踐指導。《指南》還梳理了企業在整個治理過程中應遵循的治理步驟,覆蓋從“明確應用目標與需求”到“持續數據集運營與優化”的五個階段,為企業實踐提供方法論的指引。

 

結合當前人工智慧産業的技術發展趨勢,《指南》提出數據治理對企業競爭力提升的重要性。未來,隨著技術的快速發展與實踐的進一步落地,數據治理將推動人工智慧應用的高品質發展,人工智慧數據産業的分工也將更加明確。

 

據了解,《指南》將在2024年6月19日將於北京舉辦的“數據智慧大會”上正式開放。(張九陽)

 

責任編輯: