數據品質評估助力高效人工智慧
發佈時間:2023-07-31 15:35:12 | 來源:中國網 | 作者:李陽 | 責任編輯:郭頂數據是人工智慧的基石,數據品質的高低直接影響到人工智慧系統的準確性和可靠性。由於數據來源的多樣性和複雜性,數據中可能存在錯誤、缺失、冗余、偏差等問題,這會導致人工智慧系統的輸出結果不準確甚至産生誤導性,為解決這一挑戰,中國科研人員正在研究數據品質評估方法以提高人工智慧系統的性能和效率。
石河子大學機械電氣工程學院李陽副教授針對人工智慧的圖像識別任務提出了一種通用的數據品質評估方法—擾動熵,該評估方法從數據的資訊價值出發,將各類別已參與訓練的樣本均值記為原型,與待評估樣本進行融合,再根據網路預測概率計算擾動圖像的資訊熵以衡量數據品質。實驗結果表明,在數據數量相同的情況下,基於高品質數據訓練的模型性能要顯著優於基於低品質數據訓練的模型性能。該研究方法首次發表在知名期刊ICT Express (SCI檢索,影響因子5.4),並於2023年7月5日被授予Best Paper Award。
(李陽供圖)
李陽表示,數據品質評估在人工智慧系統中的應用範圍十分廣泛,比如,醫療領域,人工智慧可用於疾病診斷和治療,而準確的醫療數據是確保系統可靠性的關鍵;金融領域,人工智慧可用於風險評估和交易決策,數據的準確性和一致性對避免錯誤決策至關重要;交通領域,精準的交通數據能夠幫助優化交通流量和減少擁堵。開展數據品質評估不僅能提高人工智慧系統的準確性和可靠性,還能篩選高品質數據以避免訓練時間和訓練資源的浪費,而且還有助於促進跨組織和跨行業的數據交流與共用。儘管數據品質評估在推動人工智慧的高效運作方面發揮著重要作用,但仍然面臨著一些挑戰和難題,比如,數據隱私和安全問題,以及數據品質評估的標準化和規範化問題。
未來,隨著數據品質評估技術的不斷發展和應用,人工智慧有望在各行業中展現出更高效、可靠和創新的應用前景。(李陽)