促進生成式人工智慧發展亟須破解數據瓶頸
文 | 王業亮 中國人民大學法學院博士後,丁曉東 中國人民大學法學院教授、未來法治研究院副院長
作為資訊化、數字化、智慧化的新型技術基座,生成式人工智慧對於提升國家戰略地位與國際競爭力具有重要意義。近年來,美國接連出臺多項人工智慧戰略和政策文件,以謀求維持其在該領域的領先地位。歐盟也試圖通過立法打破數據孤島、構建基於風險的分層規制體系,提升人工智慧産業競爭力。基於數據要素稟賦,中國在發展生成式人工智慧領域具有戰略優勢。2023年中央經濟工作會議指出:“要大力推進新型工業化,發展數字經濟,加快推動人工智慧發展。”為進一步促進生成式人工智慧的快速發展,應構建生成式人工智慧促進型法律制度,進一步優化個人資訊保護,協調著作權保護,推動企業數據互聯,用制度創新破解數據瓶頸,為生成式人工智慧發展提供法治保障,在激烈的國際競爭中搶佔主動權和制高點。
完善個人資訊保護,增強訓練數據供給
個人資訊是生成式人工智慧訓練數據的重要來源。生成式人工智慧訓練數據的形成,有賴於對個人資訊保護制度的正確理解與適用,涉及個人資訊保護法中的告知同意制度、必要性原則以及公開性個人資訊的利用等法律規範。具體而言,告知同意制度能夠給予個體一定的自我保護,防止資訊處理者過度收集個人資訊。但面對資訊處理的複雜實踐,受認知所限,個體有可能難以真正預防風險。必要性原則強調收集個人資訊的限制與處理最小化。若對必要性原則進行僵化解釋,則任何包含個人資訊的數據都無法用於人工智慧訓練,這反而可能導致人工智慧因為缺少某些數據訓練而變得具有歧視性、不公平性。公開數據是生成式人工智慧數據的主要來源,而這些數據往往缺乏交互場景和聯繫方式,資訊處理者難以聯繫個人和獲取個人同意。
為破解生成式人工智慧在個人資訊數據收集與利用方面的障礙,應在保障個人資訊安全的前提下,進一步完善個人資訊保護制度。首先,對於已公開的個人資訊,應以廣泛匯聚與融合利用為前提,于技術層面構建去標識化、差分隱私等程式性保護機制,並輔之以個人拒絕權等機制。其次,當人工智慧訓練中的數據包含個人資訊時,應區分改進型與侵害型的個人資訊處理。如果人工智慧訓練數據是為了實現更為公平與準確的個人資訊處理,應將此類訓練視為符合個人資訊處理目的,反之則應視為違反必要性原則。最後,應當優化告知同意制度,強化隱私政策告知、加強合作治理。在個體私力救濟不足的情況下,應強化執法者對隱私政策的執行、市場機構對隱私政策與個人資訊保護實踐的評級、資訊處理者內部的個人資訊合規機制。
立法既要為訓練數據提供制度供給,也要為個人資訊安全提供保障。對於人工智慧企業合法獲取的包含個人資訊的數據,應在數據清洗、數據標準、模型訓練和評估、模型部署等階段,對個人資訊數據進行全生命週期的監管,進一步強化生成式人工智慧企業的處理者責任。在技術層面,應要求人工智慧企業依託加密技術、隱私計算等技術化手段保護個人資訊。在制度層面,應要求人工智慧企業通過內部合規、設立數據保護專員、合規審計與風險評估等機制嚴格保護個人資訊。
協調著作權保護,規範內容數據合理使用
著作權保護的門檻並不高,只要求作品具有獨創性並能以一定形式錶現。因此,人工智慧企業利用網路上的文字、圖片、聲音等素材的內容數據進行訓練,便有可能構成著作權侵權,面臨巨大訴訟壓力、賠償壓力以及社會聲譽壓力。由於多數內容數據的著作權分散于各個著作權人,人工智慧企業可能難以直接與他們聯繫。即使聯繫到這些著作權人,在要價問題上也面臨種種困難。既有的數據庫和各類著作權集體管理組織可以在一定程度上解決著作權許可問題,但對於網路上的內容數據而言,由於數據容量以及適用領域等方面的限制,其作用相對有限。
破解生成式人工智慧內容數據的著作權約束,需要構建整體性的合理使用制度。生成式人工智慧與非生成式人工智慧相比,對於數據的利用具有複雜性,其對著作權作品數據的利用常常既涉及事實,也涉及表達,但整體上屬於合理適用範圍。具體來説,就人格權益而言,生成式人工智慧利用海量數據而非特定作品進行訓練,一般不會侵害某一特定作品中所包含的人格權益;就激勵機制而言,生成式人工智慧利用海量數據進行訓練,主要是為了提高其一般性的識別與創作能力,而不是替代某一特定作品,作者也不會因為生成式人工智慧作品的出現而不再進行創作。當然,如果生成式人工智慧對於著作權數據的訓練破壞了權利人的技術措施或相關協議,或者當生成式人工智慧對於著作權數據的利用是“假訓練、真剽竊”,那麼此類行為就對人格權益與激勵制度産生負面影響,應當被排除在合理使用之外。
生成式人工智慧企業在對著作權作品進行寬泛合理使用的同時,也需要承擔與此相對應的更多責任。首先,生成式人工智慧企業應踐行社會主義核心價值觀,積極承擔社會責任,避免數據與演算法歧視方面的風險與侵害。其次,生成式人工智慧企業應對實質性相似的生成作品承擔侵權責任,這既有利於保護作品原創者的合法權益,也有利於激勵企業的技術創新。最後,法律應審慎對各類生成類作品賦予著作權。人工智慧領域的激勵機制在於鼓勵人工智慧技術的發展與創新,而非激勵生成作品的生産。可以將人工智慧的生成作品置於公共領域,允許公眾與企業對其進行一般利用。生成式人工智慧企業也可以推出用戶付費版本,通過用戶協議和向用戶收取使用費用來獲得報酬,這可以為人工智慧企業提供合理的商業激勵。
破除企業數據壁壘,助推數據匯聚融合
破除企業數據壁壘,需要倡導網際網路的互聯互通。網路互聯曾經是網際網路的核心精神之一,但隨著網際網路的發展和商業化,出於競爭或安全等考量,網際網路企業往往打造封閉型數據生態系統,防止其他企業特別是競爭企業獲取其數據。這導致了數據孤島現象,抑制了數據共用紅利的溢出效應。對於企業而言,僅僅依靠自身掌握的商業數據進行訓練,難以觸及其他企業獨佔的高品質數據,勢必會制約生成式人工智慧的訓練效果。
就數據互聯而言,應避免對網路公開數據進行絕對排他性確權。過去幾十年來,網路公共空間的興起導致了數據的爆發性增長,為人工智慧等技術的發展奠定了堅實的數據基礎。隨著數據價值的凸顯,數據的利益分配成為各方關注焦點,不少聲音呼籲通過對數據確權實現此類分配。但基於數據的公共性特徵,過多的排他性權利保護可能導致社會對它們的利用不足,構成“反公地悲劇”。數據的公共性並不否認對數據權益的合理保護,數據的合理保護同樣是一種公共善品,有利於激發私主體的創造和個體有價值數據的公開;同樣,數據的公共性也不否認數據利用的公平性需求,而這種公平性不應依賴微型權益確權或強化企業的數據排他性確權來實現,而應創新數據利用的收益分配機制,實現效率與公平的協調。
破除企業數據壁壘,也可以利用各類合理的爬蟲機制打通不同企業之間的數據壁壘。基於數據的非競爭性與爬蟲技術的中立性特徵,應當認識到爬蟲等行為一般不會影響數據持有者的合法權益,如果運用得當,反而會承載促進互聯的作用。尤其在數據企業紛紛設置壁壘、互相防範的情形下,合理的數據爬蟲可以成為不同企業數據融合的橋梁。為此,對於規範性的數據爬蟲不應施加過多限制。對於造成宕機等後果的數據爬蟲,可以根據侵權責任法進行應對,謹慎適用刑事措施。此外,網信部門可以通過鼓勵行業自律等方式,在倡導網際網路企業合理自治的同時,助推企業之間互聯互通,營造多樣化網際網路生態。在生成式人工智慧等技術日新月異的背景下,企業呈現出前所未有的數據融合需求,應利用法律與行業自律的方式共同推動數據互聯,為生成式人工智慧企業提供充足的數據源,助力企業良性競爭、持續創新。