春意漸濃,又到了每年公佈中小學、幼兒園招生方案的時候。最近,在嵊州,教體局正忙著統計各階段生源數量,編制招生人數。但與多年前需要去各個幼兒園收集數據不同,如今一台電腦就能提供所有所需資訊。
這要歸功於一項關於公共數據檔案化治理的改革試點。去年起,嵊州作為全省唯一試點,探索“個人全生命週期檔案”綜合智治應用,將貫穿個人生命週期的數據進行融合、治理、歸檔、溯源,讓一生的數據有“檔”可尋。目前,該應用已對嵊州71萬戶籍人口完成數據歸集4114萬條、數據治理808萬條、場景建設5個。
3月23日,嵊州舉行公共數據檔案化治理研討會,這項應用接受了來自全國的檔案學者和數據治理專家的“檢驗”,其數據治理的階段性成果得到專家學者肯定,下一步計劃全省推廣。
那麼,為什麼要對個人一生的數據進行檔案化治理?怎麼治?未來又能發揮什麼效用?
一頭熱,一頭冷
每個人的一生,其實都在産生數據。有數據專家認為,對這些數據的處理會涉及到兩個問題,一是保存,即如何將紙質檔案數據化,便於儲存和搜尋;一是治理,怎麼讓數據歸屬和關聯到我們每個人,讓數據産生意義。
浩如煙海的檔案,不僅在保存上是個難題,傳播和利用也極為困難。
此時,數字化無疑成為一項重要“法寶”。2021年7月,《浙江省檔案工作數字化改革方案》印發,要求加快檔案資源向數字化、數據化轉型。浙江在數字化改革的基礎上,依託公共數據平臺建立專題數據庫,並依照“一數一源一標準”的原則對公共數據進行整理。
“公共數據平臺就像一個水池,把與檔案相關的數據放進去,經過清洗、比對和關聯,建立專題數據庫,相關部門需要時可以進行申請提取。”浙江省大數據發展中心主任金加和向記者介紹,目前,依託平臺已歸集檔案相關數據536.1萬條,賦能省檔案館、省司法廳等18個應用,累計調用4003.9萬次。
然而,一邊是檔案數據化“熱”,一邊卻是數據檔案化“冷”。浙江大學公共管理學院副教授章燕華指出,目前檔案實踐已經普遍引入了數據理念和方法,但把檔案理念引入數據實踐卻鮮有人關注。
“為什麼數據經過了標準化的處理,還需要進行檔案化治理?”嵊州的研討會上,有人拋出了這一疑問。
章燕華用“機器友好”和“人類友好”的對比來解釋其中區別,“‘一數一源一標準’治理後的數據,主要用於電腦系統內部處理。而檔案化治理將和個人有關的數據進行匹配、關聯,數據由此成為了一個連續體,可以按照人的一生來還原、建立其重要數據,意義重大。”
一頭匯聚,一頭治理
研討會上,嵊州市檔案館、嵊州大數據中心重點討論了項目所遇到的難點。要想實現數據檔案化治理,技術上並非一蹴而就。
比如第一步原文識別就遇到大麻煩。技術人員在數據匯集時發現,很多年代久遠的證明材料經常出現姓名印斜、字跡模糊等情況。這導致通過OCR技術識別出的字符和真實資訊偏差很大,精準度不到60%。正當項目陷入僵局之時,嵊州大數據中心數據資源科科長徐成鋼靈光一現:“不如先保證識別出最關鍵的資訊身份證號,再把姓名、檔案號等資訊作為備選條件,同時通過現有身份系統進行比對核實?”
果然,分步測試後,數據識別的精準度達到95%以上。
到數據匯聚這一步,直接考驗當地近年來數字化成效。徐成鋼向記者展示了一張Excel統計表格,僅在“出生”這一場景,就涉及到出生醫學證明、戶口登記、居民身份證等8項證照的資訊收集,每類資訊還可能關聯到不同部門。還好,省裏的一體化數字資源系統(IRS)可以回流數據,將相關資訊與有關業務系統進行對接,充分保證了數據的全面。
出生證新生兒身份證號如何補全?不同部門的數據産生衝突怎麼辦?……在第三步的數據比對、校驗、加工等過程,難度持續加大。面對海量數據,這些過程都要迅速完成,構建一套智慧演算法是關鍵。於是,項目專班與負責技術研發的杭州安鉑數據公司一道,構建了數據校驗演算法3種、數據加工演算法5類,用於補全關鍵業務字段值,並通過身份證資訊,構建個人基本資訊數據專題檔案。
“目前對於少量缺失或異常數據,還需要進行人工搜尋和核對。隨著演算法的不斷進步,相信很快這個系統就能實現全自動化。”杭州安鉑數據公司總經理王青雲表示。
據悉,項目組整整用了半年時間,最終完成4114萬條數據的匯聚與808萬條數據的治理。嵊州市71萬戶籍人口基本每人實現了自己的電子化“一人一檔”,隨著項目推進,每個人以前、現在、今後産生的幾乎所有公共數據,都可以以身份證為索引進行檢索、調用,而不是以前那樣分散“躺”在各種系統、表格中。
“如果將海量數據比作礦産資源,那麼數據治理的過程就像金屬的冶煉,通過分類分級和加工處理,將寶貴的金屬材料從礦石中提取出來,滿足不同用戶的需求。”金加和直言,經過精細化治理的數據,才能體現數據資源的價值。
一頭攻堅,一頭突破
“在嵊州,像我這樣在外地做生意的學生家長很多。以前給孩子報名很麻煩,不僅來回出行成本高,一旦哪個紙質證明找不到,一家人還要翻箱倒櫃忙碌好久。”記者聯繫上了在天津做小籠包生意的二孩媽媽徐女士。她説,自家二寶報名,不再像大寶報名那樣要奔波勞碌。儘管人在外地,但她登入“浙裏辦”應用的網上報名系統,所有資訊會自動匹配,幾乎能夠“一鍵報名”。
這一變化,也是浙江數據治理進階之路的體現。通過將個人相關的檔案數據推送至“浙裏辦”應用中的“浙裏檔案”,數據壁壘被打通,百姓辦事自然也更方便。目前,核心業務已拓展至中小學報名系統、電子病歷系統、智慧交通系統等。
“我們除了在服務側為老百姓提供便利,還在治理側將應用上架‘浙政釘’,方便政府部門協同推進數據治理。”嵊州市檔案館副館長汪偉民向記者介紹。
例如,“個人全生命週期檔案”項目中的“出生駕駛艙”,就能夠為嵊州市衛生健康局判斷嬰幼兒托位數、制定鼓勵生育措施等工作提供依據。此外,項目還開發完成了教育、就醫、養老、身後共5個場景的大屏建設,為教體局、人力社保局等多個部門提供數據支撐。
眼下,數據檔案化治理仍處於探索階段,由於數據治理標準規範不一、數據品質參差不齊,許多改革參與者、研究者仍感到在“摸著石頭過河”。但採訪中,大家不約而同地都對它的“變身”充滿期待:預計今年年底,應用場景將拓展至10個人生階段,覆蓋個人全生命週期;未來,還能基於模型演算法構建完整的人物社會關係圖譜,為化解民事糾紛、資産溯源追蹤等提供支援。
向更遠處看,浙江的數據治理之路將通向何方?在數據標準化、檔案化的基礎上,如何更進一步,推動數據資源更廣闊的應用,是不少專家學者的共同關切。
研討會上,數據專家為我們描繪了一條數據治理的“進階之路”:“標準化讓數據治理制度更加標準,檔案化讓數據更有價值。未來,還可以將數據資源變為數據資産,讓數據可控制、可度量、可變現,探索開展數據質押、數據信託,促進數據資産化應用,培育數據要素市場,助力數字經濟高品質發展。”
來源:浙江日報 | 撰稿:見習記者 周林怡 本報記者 金春華 | 責編:俞舒珺 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:13157110107