如何構建可信賴的AI系統

編者按當前，人工智慧發展方興未艾，大幅提升了人類認識世界和改造世界的能力，同時也帶來一系列難以預知的風險挑戰。為幫助讀者更好了解人工智慧，本版今起推出“解讀人工智慧前沿技術趨勢”系列報道，分析技術變革深層邏輯，凝聚智慧向善共識。

近期，國內外一些人工智慧（AI）産品問答內容價值導向錯誤的新聞頻上熱搜。隨著AI技術的發展，AI的價值導向問題逐漸引發廣泛關注，“構建可信賴的AI系統”的呼聲越來越高。日前在2024年世界科技與發展論壇期間發佈的《2024年人工智慧十大前沿技術趨勢展望》，就列入了“人機對齊：構建可信賴的AI系統”。2024年世界網際網路大會烏鎮峰會也聚焦AI，釋放清晰信號——擁抱以人為本、智慧向善的數字未來。

什麼是可信賴的AI系統？構建可信賴的AI系統有哪些路徑？科技日報記者就以上問題採訪了相關專家。

可靠穩定是關鍵

隨著AI在社會生活和各個行業中滲透程度的加深，其決策和行為的影響範圍也日益擴大。例如，在醫療、交通、金融等高風險領域，AI系統的決策影響著人們的生命、財産與福祉，一些錯誤決策可能直接威脅到人類生命或財産安全。康奈爾大學約翰遜商學院講席教授叢林介紹，AI在金融領域的應用主要包括資産管理、資産回報預測、資産定價等。“我們希望金融領域的AI要準確。我們並不需要它有發散思維或特別有創造力，而是希望它能給我們準確的答案，或是具有一定的穩健性。”他説。

“確保AI系統可信賴，已經成為AI發展不可忽視的要求。這不僅是技術層面的改進，更是社會倫理與責任的體現。”中國科學技術大學人工智慧與數據科學學院教授王翔認為，可信賴AI系統不僅能讓技術更好地滿足人類需求，還能有效防範AI誤判和偏見可能引發的負面效應。可信賴的AI系統不但要有優秀的預測、生成、決策等業務能力，而且在透明度、公平性、可解釋性、安全性等方面也要符合用戶預期。

其中，可解釋性是指用戶應能夠理解AI的行為和決策流程，以便增強用戶對AI的信任，並更好地加以利用。公平性要求AI的決策不應受到偏見影響，避免形成對不同群體的歧視。安全性則是指AI系統在運作過程中不會帶來安全隱患，並能在一定範圍內控制自身行為，特別是在極端或意外情況下要能保護人類安全。“AI系統還需要具備可靠性和穩定性，這要求它的表現在複雜和變化的開發環境中也要始終如一，不輕易受到外部因素干擾。”王翔説。

人機對齊是前提

那麼，如何確保AI系統可信賴？王翔認為，人機對齊與構建可信賴的AI系統之間關係密切。“只有具備人機對齊特質的AI系統，才能進一步實現可信賴的特性。”他説。

從概念上看，人機對齊是指確保AI系統在執行任務、進行決策時，其行為、目標和價值觀能夠與人類保持一致。“這就是説，AI系統在自我優化和執行任務過程中，不僅要高效完成任務，還要符合人類的倫理和價值體系，不能偏離人類設定的目標或帶來不良的社會影響。”王翔進一步解釋，“尤其是在涉及社會倫理和安全的場景中，確保AI輸出內容與人類的價值觀和道德準則相符，是人機對齊的核心意義。”

如果AI系統沒有經過人機對齊的過程，即使具備強大的功能和智慧，也可能因不符合人類的期望和價值觀而導致信任危機或負面影響。“因此，確保AI系統在目標和行為上與人類保持一致是構建可信賴AI系統的重要前提。兩者的結合不僅能提升AI的表現，還可為未來AI在各領域的廣泛應用奠定基礎。”王翔説。

確保AI以人為本、智慧向善，完善倫理和法律框架是重要發力方向。王翔認為，技術的進步往往伴隨著新問題的發生，因此需要設立法律邊界和倫理準則，為AI的發展提供指導與約束。這不僅可以減少AI應用中潛在的倫理風險，還能使AI應用更加規範和安全。此外，建設可信賴的AI系統需要跨學科合作，哲學、倫理學、社會學等學科的參與能為AI的設計與發展提供更全面的視角。

技術優化是手段

構建可信賴的AI系統，還需要在技術層面和應用實踐中不斷探索和完善。王翔介紹了三種主要的技術路徑。

一是數據驅動路徑。王翔認為，數據品質和多樣性是實現可信賴AI的基礎。訓練數據的多樣性可以有效減少模型中的偏見問題，確保系統決策更加公平、全面。“只有在龐大的優質數據基礎上構建的AI模型才能適應廣泛的應用場景，降低在特殊或極端條件下出現偏見的可能性。”王翔説，數據的安全性也至關重要，尤其是在涉及個人隱私的領域，保障數據安全可以提高用戶信任度。

二是演算法驅動路徑。王翔説，演算法的優化與控制是實現可信賴AI的關鍵手段。在模型的設計階段，開發者可以通過設置倫理規則、嵌入人類價值觀等約束條件，確保系統在實際運作中符合社會準則。同時，設計透明的演算法結構有助於提升模型的可解釋性，便於用戶理解其運作機制，併為未來的模型更新和優化打下基礎。

三是獎懲引導路徑。王翔説，通過合理設計獎懲機制，可以讓AI在不斷試錯和學習過程中，逐漸形成符合人類價值觀的行為方式。例如，可以在獎懲系統中設置反饋機制，當AI的行為偏離預期時施加相應懲罰，引導其在自我訓練過程中符合人類期望。同時，獎懲機制需具備時代適應性，確保AI系統能在運作中持續更新並優化自身。

這三種技術路徑的側重點各有不同。王翔解釋，數據驅動路徑主要聚焦于通過高品質、多樣化的數據源減少AI系統的偏見，提升系統的適用性；演算法驅動路徑更注重模型的設計和透明性，使系統在行為邏輯上更符合人類預期；獎懲引導路徑則側重於在AI自我學習和優化過程中提供有效指引和反饋，讓系統逐漸趨向人類認可的方向。“不同路徑相結合，可以為實現可信賴的AI提供更加豐富的技術支援。”王翔説。

要構建可信賴的AI系統，還需在實際應用中不斷進行迭代和優化。“通過多次評估和測試，可以在不同環境和條件下驗證AI系統的性能，確保其在現實應用中的表現符合人類預期。”王翔説。

(責任編輯：沈曄)