在數據確權、價格評估機制、流通規則和基礎設施建設等相關基礎制度和標準規範體系不斷健全和完善的過程中,了解公共數據要素流通的各種途徑與相應的具體形態將有助於加快推進公共數據要素市場化配置的進程。
01公共數據流通的途徑與形態
從公共數據的生産、持有、經營和應用鏈條來看,公共數據從供給端至需求側大致包括以下四個途徑,不同途徑對應不同的數據形態。如附圖所示。
附圖公共數據流通的途徑與形態
途徑一:數智應用
原始數據經過數據治理形成高品質的數據集或數據倉庫。以數據集或數據倉庫為數據對象,通過傳統的統計分析方法或機器學習演算法,挖掘數據所承載的資訊及資訊蘊含的知識,將這些資訊和知識應用於業務運營過程中的態勢感知、風險預判和輔助決策,助力業務運營過程中的提質增效或降本增效。其流通形態為數據視圖、數據報表、資訊發佈或分析報告等數據智慧産品。
途徑二:數據共用
數據共用是實現數據要素流通、發揮數據要素價值的重要途徑之一,是數字政府、數字經濟和數字社會建設的重要內容之一,是實現跨區域、跨部門、跨層級、跨業務和跨系統(簡稱“五跨”)一體協同的重要支撐。因此,建設數據共用平臺,建立分類分級數據資源共用機制(如無條件共用、有條件共用、部分共用和不予共用等)是實現數據共用的核心建設內容。其流通形態大多為數據資訊字段、數據集或資料檔案,也包括運用隱私計算或區塊鏈技術進行計算後的結果數據(如人臉識別應用過程中的結果數據)。
途徑三:數據開放
數據開放是在更廣的應用場景和應用範圍內促進公共數據要素的流通和價值發揮。在確保網路安全、數據安全和隱私保護的前提下,政府向社會免費開放一定範圍內的數據查詢、數據調用與數據服務,或賦予公眾對政府或行業等公共部門運作狀況的知情權,或助力數商企業基於公共數據進行産品應用開發,以促進數字政府、數字經濟和數字社會共建共用。
途徑四:數據交易
數據交易是在數據開放的基礎上,針對一定範圍內的共用數據,政府向社會提供有償數據要素服務,即在遵循數據安全法和個人資訊保護法的前提下,為社會各行業各企業提供有償的公共數據服務。數據要素購買方通過買入公共數據要素,或開發用於自身業務運營的數據産品,形成可會計入表的數據資産;或開發用於對外銷售的市場應用數據産品,以實現增收創利。數據交易可分場內交易和場外交易。從合規、安全和監管角度來看,場內交易將是主流形式。據統計,截止目前,國內已建立近60個場內交易所。數據交易的數據要素形態包括標準數據集和數據産品,也包括脫敏後的初加工數據資源。從目前來看,數據交易的購買方以金融機構、網際網路大廠、頭部企業、工業鏈主和初創公司為主。隨著數據交易生態的不斷完善和成熟,未來將會有更多的市場主體作為購買方加入數據交易活動中。
02以12345政務熱線數據為例的數據要素流通分析
12345政務熱線積累了海量群眾和企業訴求,因其具備較高的更新時效性(每天有大量數據産生)、數據類型的多樣性(既有數值型數據、又有文本型數據;既有客觀的時間數據、又有主觀的評價數據等)、數據內容的完整性(包括但不限於人員資訊、點位資訊、事項資訊、處辦資訊等)、所涉事項的廣覆蓋性(平均每個城市較細顆粒度事項分類在2000項左右,基本涵蓋經濟、社會、生活的方方面面)等特點,已經成為黨委政府了解社情民意發展動態最鮮活的數據源之一。零點有數在全國熱線大會上曾提出熱線是“天地線”的理念,即熱線數據一方面可以輔助決策,是為“天線”;另一方面可以賦能基層治理,是為“地線”,由此可見熱線數據的價值所在。
按照前述公共數據流通的四種形態,針對熱線數據,在每種形態下可以做如下探索:
途徑一:數智應用——以社情民意感知平臺為載體,形成內部提質增效産品
在數智應用方面,熱線數據的核心價值在於提質增效,尤其是區縣級熱線部門(主管熱線的政府辦、數據局或城運中心等),要能從熱線數據中挖掘出值得關注的問題點來,通過不斷優化行政資源的調度方式,以相對最短時間、最小成本,來落實“接訴即辦”“未訴先辦”,從而讓訴求“辦得更實”。
在具體場景方面,可以通過命名實體識別技術、知識圖譜技術等抽取不同字段下的不同數據,支撐不同場景的實際應用。
一是在考核場景下,從過程性數據入手,監測處辦全流程。將接單、派單、退單、辦理、辦結、評價等數據字段按照事項、部門進行分類挖掘,找到“不滿意影響因素”,再提前消除該因素,提升本區考核成績。二是在“解決一類事”場景下,關注首發性、苗頭性、突增性事項,提前介入,防止事項升級;關注區域性多發事項,防止事項進一步蔓延;關注“多人一訴”“一人多訴”事項,防止群體性事項發生。三是在“未訴先辦”場景下,可通過時序預測、規律預判等演算法,通過對歷史數據的挖掘來預測未來某事項的發生概率,通過消除事項發生的前提條件而防止事項發生。四是在賦能基層場景下,可關注基層治理要點、頑癥問題等,賦能基層集中力量解決重要問題。
途徑二:數據共用——以“熱線+”事項分析平臺為載體,形成標準化熱線數據集
本質上,熱線數據屬於“需求側”數據,與此同時,政府各部門積累了各自主管或監管領域的大量“供給側”數據(包含政策數據、行政相對人的客觀數據等)。當需求側數據和供給側數據結合起來時,其體現出來的“供需一致”或“供需錯配”的結果就更具價值。因此,可以以熱線數據為線索,在具體場景下,調用其他部門的行業數據,形成數據“五跨”共用,賦能其他部門更好發揮數據價值、更深入更直觀把握群眾和企業需求。
從理論上看,“熱線+”可以與任何一個熱線承辦單位形成數據共用,賦能承辦單位更好地了解群眾企業訴求、更好地履職。從實踐中,可以從如下部門入手,形成該部門的“熱線數據集”:
“熱線+網格”:將熱線數據與網格數據進行匯融,賦能網格人員巡查時關注熱線反映較多的問題,通過提前處置,實現“未訴先辦”。
“熱線+綜治”:將熱線數據與矛盾調解等數據進行匯融,通過熱線數據捕捉社會穩定風險“弱信號”,及早協商解決,防止“小事拖大、大事拖炸”。
“熱線+營商環境”:通過與營商、發改、政務服務、金融、人社、經信等部門的數據匯融,協助營商環境建設相關部門更好地打造“為企服務包”。
“熱線+人大/政協”:人大代表、政協委員在履職過程中,可以抽取各自領域或界別的熱線數據作為調研、撰寫提案議案的素材。
“熱線+紀檢監察”:紀委監委可將熱線處辦中超期、未辦結、不滿意、群訴等數據作為檢核機關作風和幹部作風的線索。
……
隨著各部門對熱線數據重視程度的提高和使用程度的深入,以部門職責為分類依據的標準化熱線數據集將逐漸積累,熱線數據的共用程度將逐步提高。
途徑三:數據開放——以事項分析平臺為載體,按照社會需求方形成熱線數據集或熱線數據服務
數據開放與數據共用的技術邏輯比較一致,只是面向的對象不同,與政府各部門有相對穩定的職責不同,社會主體因其多樣性而導致所需數據産品(數據集或數據服務)也有較大的不確定性。因此“事項分析平臺”中的“內置事項”和“自定義事項”就能較好解決這個問題。
內置事項,可以根據前期對數據潛在需求方的調研,形成部分比較固定的數據集,內置到平台中,隨時進行數據清洗與治理、數據建模、數據結果輸出。比如抽取熱線數據中的點位資訊及與點位資訊相關的一些動態資訊(如住房維修情況、小區管理情況、道路交通情況等等),形成比較固定化的數據集,供金融保險機構、建設機構等使用,輔助其做相關行銷、産品設計決策。
自定義事項,是指有偶發性需求出現,需要快速進行數據提取、數據治理、建模、結果輸出等工作。因此,需要具有較快速的熱線數據重新分類能力、較準確的熱線數據抽取能力和建模計算能力。事項分析平臺通過積累的分類模型、演算法模型,可以快速實現此類自定義事項的識別與抽取,節省人工逐條分析工單的時間、精力等成本投入。需求方只需簡單點選相關主題內容,即可在安全、合規的前提下,快速形成結果輸出。
途徑四:數據交易——以多樣化數據産品為載體,滿足潛在客戶的需求
數據交易需要確定購買方及了解清楚購買方的實際需求,為了促成雙方交易,數據産品形態需要多樣化、靈活化,以滿足潛在客戶需求。對熱線數據而言,綜合來看可以通過如下産品形態進行交易:
一是標準化數據集。如前所述,通過抽取出某一領域的數據來,形成N個數據集,供需方購買。
二是訂閱式數據服務。因熱線數據的實時更新性,需求方可以通過訂閱式服務來不斷獲取新更新的數據。
三是綜合式數據報告。因數據集或數據服務形態相對單一,當複雜需求出現時,可通過綜合式數據報告的方式,將熱線數據、相關其他數據納入進來,形成綜合式數據報告,供需求方購買。
以上,是對熱線數據四種流通形態所做的簡要分析,從實現邏輯來説,需要經過以下幾個步驟:
一是精細化分類。需要按照場景細分的程度,對現有熱線分類體系進行更進一步的精細化分類,使新的針對具體場景的分類能符合具體需求。
二是自動分類工單。需要將存量工單和新增工單,按照新的精細化分類體系進行重新分類,通過自動分類演算法降低人工投入度。
三是抽取工單要素並構建具體場景下的知識圖譜。不同場景的工單文本數據,其所包含的要素是不同的(比如物業管理相關工單包含小區資訊,而營商環境工單則包含公司、行業資訊,兩者邏輯不同),因此需要按照場景需求抽取不同工單要素,構建出該場景下的知識圖譜,方便數據需求方在多維度下使用數據。
四是封裝成安全、合規的數據産品。根據需求方的不同需求,形成數據集、數據服務、數據報告等不同産品形態。
總體來看,實現公共數據要素流通需要在數據産權、數據流通規則、收益分配機制、安全治理規範等基礎制度的基礎上,進一步夯實和完善數據共用平臺和共用機制、數據開放平臺和開放制度、數據品質評價和數據價值評估體系以及合規審計等基礎設施和體系建設。在工程技術上,需要分類分級加強公共數據的行業標準、團體標準和治理規範建設,以形成高品質的標準數據集,形成公共數據空間。同時,要加強基於問題場景觸發的演算法模型庫建設,提高對公共數據産品和數據資産的開發效率和開發品質,為公共數據要素的有序自主合規安全流通創造有利條件。