近期,美國《紐約時報》在紐約南區法院向OpenAI及其投資人微軟公司提起侵犯版權訴訟,指控二者未經許可使用其數百萬篇文章以訓練人工智慧模型,而這些聊天機器人現在與該新聞機構形成競爭,成為可靠的資訊來源。
訴訟未明確提出具體的賠償金額要求,但稱被告應對與“非法複製和使用《紐約時報》獨特有價值的作品”相關的“數十億美元的法定和實際損害”負責,還要求被告銷毀使用《紐約時報》版權材料的所有AI模型和訓練數據。
在投訴中《紐約時報》表示曾于2023年4月與微軟和OpenAI進行了接觸,提出了對其智慧財産權使用的擔憂,並探討“友好解決”的可能性,但談判未産生解決方案。當地時間1月8日,OpenAI首次針對《紐約時報》提起的訴訟進行了正式回應,稱《紐約時報》並未講述完整的故事,其訴訟毫無根據。儘管如此,公司仍然希望與其建立建設性的合作夥伴關係,並尊重其悠久的歷史。
1月18日,OpenAI的創始人山姆·奧爾特曼(Sam Altman)在瑞士達沃斯世界經濟論壇上也對外表示,雙方在起訴消息曝光前曾進行了“富有成效的談判”,對《紐約時報》的起訴感到驚訝。他指出,OpenAI希望以“大量資金”向該內容出版社支付費用,以在ChatGPT中展示他們的內容,但實際上並不需要在他們的數據上進行人工智慧訓練。“我認為人們不太理解這一點。任何一個特定的訓練源對我們的影響並不是那麼大。”
《紐約時報》是全球首家起訴兩家公司侵犯其文字作品版權的美國大型媒體機構。此次訴訟拉開了未經授權使用已發佈作品訓練人工智慧技術的“法律戰役”新篇章,或將成為影響AIGC(生成式人工智慧)領域走向的重大事件。
業內爭議不斷 版權訴訟頻發
這場訴訟引起了業內關於內容創作者與人工智慧開發者之間權益平衡的討論。支援者和反對者各執一詞,有人認為智慧財産權至上,OpenAI侵犯了《紐約時報》的勞動成果,甚至可能威脅到新聞業的獨立性;也有人認為,大模型可以像人一樣免費學習,侵權的關鍵在於作品的輸出內容,而非輸入內容。
美國數字廣告局(Digital Content Next)首席執行官傑森·金特(Jason Kint)在社交媒體X(原推特)上指出《紐約時報》理由充分,其中包括《紐約時報》的內容是OpenAI用來訓練大模型的關鍵來源,以及《紐約時報》提供的100多個GPT-4輸出內容和《紐約時報》報道文章高度相似的例子。
美國作家、科技評論家丹尼爾·傑弗裏斯(Daniel Jeffries)則提出相反觀點,認為要求每個人為訓練數據支付授權費是不切實際的,這也不是美國版權法所談論的關鍵,“版權法的宗旨是防止人們完全複製或近似複製內容,併為了商業利益將其發佈。”
他還聲稱,GPT精確複製《紐約時報》內容是人為操縱的結果。“沒有人能用他們所謂的提示重現那個逐字的輸出……可能是程式員通過API特意指令它尋找某篇特定的文章,並讓它輸出文章的一部分……如果我讓它去找一篇《紐約時報》的文章並輸出,那麼責任在我,而不是這個模型。況且這個功能完全不需要機器學習技術,十幾年前的編程庫就能做到。”
對於席捲而來的AI大模型浪潮,不同的內容創作者和媒體機構也有著截然不同的態度。
部分新聞機構選擇與科技企業合作。去年7月,美聯社與OpenAI達成協定,授權OpenAI使用美聯社部分新聞存檔,以探索生成式AI在新聞領域的應用。12月,德國大型媒體公司阿克塞爾·施普林格(Axel Springer)與OpenAI建立全球合作夥伴關係,根據協議,ChatGPT用戶有許可權閱讀該出版社旗下媒體所創作的精選內容,同時其內容將被用於推進大語言模型的訓練。《華爾街日報》新聞集團則正在考慮向AI開發人員收取使用其中內容的費用。
當地時間1月4日,OpenAI的智慧財産權和內容首席湯姆·魯賓(Tom Rubin)在接受採訪時表示,公司近期與數十家出版商展開了有關許可協議的談判,“我們正處於多場談判中,正在與多家出版商進行討論。他們十分活躍積極,這些談判進展良好。”
與此相對應,多家媒體在其網站上阻止OpenAI掃描平臺內容。根據《衛報》報道,自《紐約時報》後,CNN、路透社、《芝加哥論壇報》(The Chicago Tribune)、《堪培拉時報》(The Canberra Times)、《紐卡斯爾先驅報》(The Newcastle Herald)等媒體紛紛宣佈阻止該行為。其中,法國廣播電臺(Radio France)表示,阻止OpenAI機器人是為了避免“內容未經授權就被掠奪”。
事實上,生成式AI面臨著大量侵犯版權的指控。
2023年7月10日,美國喜劇演員和作家薩拉·希爾弗曼(Sarah Silverman)以及另外兩名作家起訴Meta和OpenAI,指控其侵犯版權。9月19日,美國作家協會以及包括《權力的遊戲》原著作者喬治·R·R·馬丁(George R.R. Martin)在內的17位美國著名作家對OpenAI發起集體訴訟,稱OpenAI在未經授權的情況下使用原告作家的版權作品訓練其大語言模型。12月,多名普利策獎得主起訴OpenAI和微軟濫用自己作品訓練大模型,指出這樣的行為無疑是在“刮取”作家們的作品和其他受版權保護的材料。他們希望獲得經濟賠償,並要求這些公司停止侵犯作家們的版權。
據不完全統計,自2022年11月至2023年10月,僅美國加州北區法院便已經受理了10起版權人起訴StabilityAI、OpenAI、Meta、Alphabet等AIGC研發企業未經授權,利用版權作品進行模型訓練的案件。
傳統法律框架下的難題
這場由《紐約時報》對OpenAI的訴訟引發的智慧財産權之爭,不僅僅在美國引起了激烈的討論,更是揭示了全球範圍內AI與內容創作者之間權益邊界的普遍性問題。在我國,法律層面尚未就生成式AI對版權作品的使用作出明確規定,大模型在智慧財産權的使用和保護方面引發的討論也愈演愈烈。
作為自然語言處理系統,大型語言模型(LLM)通過大量文本語料庫進行訓練,然後根據它所學到的內容來回答問題或生成文本,其學習的能力很大程度上依賴於海量數據。當下關於生成式AI領域的版權糾紛,有許多有關使用未經授權的版權作品進行大模型訓練的行為,且有跡象顯示傳統的版權模式在大模型時代可能會失靈。
“按照我國法律來判斷,大模型在訓練階段對於數據的使用是否屬於版權侵權,依舊存在爭議,很難給出確定性的結論。”中國政法大學智慧財産權研究中心特約研究員、北京嘉濰律師事務所律師趙佔領指出,一般而言大模型訓練階段包含三種行為:獲取、存儲、處理。“獲取行為類似于線上瀏覽網頁和線下閱讀書籍,如果只是接觸不存在後續的傳播利用,是不構成侵權的。”同時他強調,在獲取階段需要關注獲取合法性問題,“比如對方實施技術保護措施,但你通過規避這些措施去抓取伺服器裏的內容,是可能構成侵權的。”
趙佔領指出,按照著作權法,大模型訓練的存儲階段主要會涉及是否侵犯權利人的複製權。“但大模型訓練不是公開的外部使用,從傳統的角度來講不好發現,也很難判定到底造成了什麼損失,國內也沒有明確的立法和相關的司法判例,很難給出明確的結論。因為侵犯複製權一般都是複製的同時進行傳播和利用。”
對於處理階段,騰訊研究院高級研究員朱開鑫曾表示,模型內部的內容分析處理行為對應著作權法上的何種權利存在疑問,且理論界和實務界目前尚未有明確結論。
朱開鑫指出,有觀點認為“作品處理”行為落入著作權法中“改編權”的規制範疇,但所謂的改編權是指改編既有作品形成新作品的行為,如果是對作品數據進行分析處理,並生成包含一定模式、趨勢以及相關性的參數,這一過程不涉及新作品的形成,明顯難以契合“改編權”的要求。還有觀點認為,上述行為不屬於版權規制的權利範疇。著作權法遵循“思想表達二分法”的基本邏輯,強調“不保護自然人的思想,只保護自然人對於思想的外在表達”。GPT模型通過不斷學習海量作品中不同文字之間排列組合的概率和規律,然後內化為自身的模型參數,對於作品僅僅是進行統計學意義上文字組合概率的學習,不是為了使用和展示作品中的表達性內容,因此不屬於著作權法意義上的作品利用行為。
“目前我國在法律層面上,在生成式AI使用版權作品等方面沒有具體規定,但存在部門規章層面的規定。”北京大成律師事務所智慧財産權與科技創新組聯合負責人肖颯指出,我國對生成式AI使用作品的規範主要集中在《生成式人工智慧服務管理暫行辦法》,其中第七條規定,生成式人工智慧服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動;涉及智慧財産權的,不得侵害他人依法享有的智慧財産權。其特點在於對AI訓練使用版權作品較為開放,只要不侵害版權作品複製權、資訊網路傳播權等著作權法上規定的權利即可。
值得一提的是,我國著作權法第二十四條規定了“合理使用條款”,在特定的條件下,法律允許他人自由使用有著作權的作品,而不必徵得權利人許可,不向其支付報酬的合法行為。而判定是否屬於“特定的條件”,其中一個重要標準是,是否用於營利目的。
大模型訓練是否能適用“特定的條件”,被歸入“合理使用範疇”?肖颯認為,生成式AI抓取內容顯然屬於商業營利目的,故無法構成合理使用。合理使用制度之所以限制著作權,是因為著作權本身即是法律賦予作者特殊的壟斷權利,但不能因其而阻礙人們學習與社會發展。根據目前法律來看,生成式AI抓取雖不構成合理使用,但在未來隨著其重要性逐漸攀升,相應法規可能會有所變化。
肖颯觀察到國內目前雖然還未爆發大型矛盾,但不難看出在小的內容創作者與AI服務提供者之間已存在不少摩擦。“生成式AI本身運作機制較為複雜,想要證明其侵權確實存在很大的困難,這在一定程度上加大了被侵權者的維權成本。”她認為,目前內容生産方所依賴的法律保護依舊是著作權法,然而著作權法還未隨AI發展而更新,因此內容生産方若想保護自己的作品不被AI使用,最好的辦法還是依據著作權法第四十九條,對其發佈在公共平臺的作品採取一定的技術手段進行保護,同時在相關文本中明確表示其內容不得被用於AI訓練。
尋找版權和技術的新平衡
AI大模型時代開啟,應如何看待內容版權保護和人工智慧技術之間的關係?
在肖颯看來,目前版權與生成式AI發展是相互制約的。“版權制度實際上就是通過賦予作者特殊壟斷地位,維護與鼓勵其智慧創造。為促進生成式AI發展,版權制度可能需要適當讓步,在大數據時代中尋找一個新的平衡。而從法律層面上來看,平衡的方式可能是出臺相關領域的專門立法,從而確立獨特的標準。”
中國科學院虛擬經濟與數據科學研究中心研究組成員、中科數字大腦研究院院長劉鋒認為,著作權制度的根本價值在於維護個人利益與公共利益之間的平衡。隨著生成式AI等技術的發展,數據要素已成為最具時代特徵的生産要素,數據對提高人工智慧和數字化技術能力的作用正不斷凸顯。但人工智慧發展背後,數據的利用和分配涉及到多方面複雜問題,需要綜合考慮技術、法律、倫理等多個維度來找到合理使用的平衡點。總體來説,生成式AI模型與智慧財産權之間呈現出一種博弈的過程。
北京師範大學新聞傳播學院學術委員會主任、教授,北京師範大學傳播創新與未來媒體實驗平臺主任喻國明進一步解釋道,生成式AI的技術原理是結合大量語料數據,構建大語言模型,以ChatGPT為例,通過這種方式可使其具備高於人類平均水準的互動聊天能力,這些語料數據以千億級為單位,當前從事生成式AI的創業公司顯然不具備完全購買語料數據的能力,因此很容易産生智慧財産權糾紛。
為此,他在幾年前便提出了微版權的概念。微版權是指,在技術發展過程中衡量語料數據的價值。比如,對於學術論文而言,不同論文的數據(下載量、引用量等)不同,應當具備不同的價值,而非採用統一、靜態的價值權重進行衡量。“版權價值並非恒定不變,應當根據版權主體生態位的態勢構建動態浮動的價值權重”。
喻國明指出,微版權將結合語料價值,對版權價值進行細分,平衡了版權所有方和版權使用方之間的關係,賦予版權資源更大的自由度和靈活性。更重要的是,能減輕生成式AI公司的支付成本與侵權風險。
針對此類問題,北京師範大學新聞傳播學院、計算傳播學研究中心副教授,杭州市濱江區浙工大網路空間安全創新研究院特聘研究員閔勇認為,《紐約時報》起訴OpenAI的案件一定程度上喚醒了國內AI企業關於大模型訓練數據的版權意識。生成式AI的技術發展是一個不斷自我進化的過程,隨著技術的發展,AIGC研發主體與版權方最終應找到一種互惠互利的合作方式。
與此同時,多位業內人士對記者表示,確立版權保護原則是版權生態持續、有序、動態、平衡發展的前提。加強智慧財産權保護可以提升企業創新能力和企業研發投入,也對版權生態下的創作者、科研人員等諸多處於不同領域的從業人員具有激勵創新和提升活力的作用。
事實上,監管與發展,並不是一個二元對立的選擇。在很長一段時間內,我國在知識版權和AI技術的關係問題上,也呈現出一種摸著石頭過河的狀態。閔勇建議,為避免版權方與AIGC研發主體之間的智慧財産權摩擦,我國政府應進一步關注開源數據集的開發,鼓勵受財政支援的科研單位、文化單位開放訓練數據,加強與社會力量的協同。
在任何一個領域,監督都是有必要的,在人工智慧這個領域也是如此。不過,針對處於起步階段的新興技術産業,閔勇表示,法律監管應當在積極鼓勵發展創新的基礎上,劃定發展紅線,盡可能為生成式AI提供相對開放的發展空間。“版權保護並不是限制産業發展,而是引導和保障相關産業的良性發展”。
(責任編輯:畢安吉)