視頻生成器Sora讓人喜憂交加

數字空間>

時間: 2024-02-20 16:22:33 | 來源: 科技日報

繼推出ChatGPT後，龍年伊始，OpenAI公司又推出了最新人工智慧（AI）模型——文本-視頻程式Sora。這款工具可根據簡單的文本描述，生成類似好萊塢電影般的逼真而又充滿想像力的視頻。

英國《新科學家》雜誌網站在2月17日的文章中指出，對Sora的到來，人們可能“既愛又怕”。不少科學家歡呼其到來，認為它將進一步推動技術進步。但也有人擔心，Sora會被別有用心之人用來製造深度偽造視頻，加劇錯誤和虛假資訊的氾濫。

一位時尚女性漫步于充滿城市標牌的東京街道上，道路兩邊霓虹燈閃爍，透出陣陣暖意。Sora可根據這一文本內容生成逼真視頻（圖為視頻截圖）。

圖片來源：Sora/OpenAI

兩大技術孵化強大功能

Sora日語意為“天空”，其背後的團隊之所以選擇這個名字，是因為它“讓人聯想到無限的創造潛力”。該系統是生成式AI的一個最新實例。生成式AI可即時創建文本、圖像和聲音。

Sora目前可單獨使用文本指令，或將文本與圖像相結合，來創建長達60秒的視頻，而且是一鏡到底。比如一段演示視頻依據如下文字描述生成：一位時尚女性漫步于充滿城市標牌的東京街道上，道路兩邊霓虹燈閃爍，透出陣陣暖意。Sora不僅準確呈現了細節，還生成了具有豐富情感的角色。

目前OpenAI官網上已更新了48個視頻，包括一隻狗在雪地裏嬉戲，車輛在路上行駛，以及更奇幻的場景，如鯊魚在城市摩天大樓之間游泳等。有專家認為，Sora的表現優於其他類似模型，標誌著文本-視頻技術的巨大飛躍。

為實現更高水準的真實感，Sora結合了兩種不同的AI技術。一是類似于DALL-E等AI圖像生成器中使用的擴散模型，這些模型學習將隨機圖像像素轉換為相干圖像；二是“轉換器架構”技術，其被用於將序列數據依據上下文內容拼接在一起。例如，大型語言模型使用轉換器架構將零散的單片語裝成人們可理解的句子。OpenAI將視頻片段分解為視覺“時空補丁”，Sora的轉換器架構可處理這些補丁。

英偉達公司高級研究科學家范麟熙在社交媒體平臺X上稱，Sora是一個可模擬現實世界的“數據驅動的物理引擎”。

仍有諸多完善空間

儘管Sora生成的視頻令人印象深刻，但並非完美無缺。

OpenAI公司坦承，目前Sora模型也有弱點。它可能難以準確模擬複雜場景的物理特性，且可能無法理解因果關係。例如，該系統最近生成了一個人吃餅乾的視頻，但餅乾怎麼吃也沒變小，被咬的餅乾也神奇地沒有咬痕。此外，該模型還可能混淆文字提示的空間細節，也可能難以精確描述隨時間推移發生的事件。

美國普林斯頓大學的阿凡德·納拉亞南指出，Sora生成的視頻在描繪有大量動作的複雜場景時仍然會出現一些奇怪的小問題。

或使人真偽難辨

除了加快經驗豐富的電影製作人的工作速度外，Sora還可能快速廉價的製造網路虛假資訊，使人們在網際網路上更難分辨真偽。

OpenAI公司仍在試圖了解Sora的危險性，因此尚未向公眾發佈該系統。相反，他們正在與為數不多的學者和其他外部研究人員分享這項技術，希望借助這些專家的智慧，找到該系統可能被濫用的方式。

OpenAI針對Sora開展的“紅隊”演習中，專家們試圖破壞AI模型的保護措施，以評估其被濫用的可能性。OpenAI發言人表示，目前參與測試Sora的都是“在錯誤資訊、仇恨內容和偏見等領域的專家”。

這項測試至關重要，因為Sora可能會被別有用心者用來生成虛假視頻，以騷擾他人，甚至影響政治選舉。學術界、商界、政府以及AI專家都很擔心，AI生成的“深度偽造”內容可能會造成虛假和錯誤資訊的廣泛傳播。

美國加州大學伯克利分校的哈尼·法裏德認為，與生成式AI領域的其他技術一樣，人們有理由相信，文本-視頻技術會持續改進。因為一旦Sora與由AI驅動的語音克隆技術相結合，將為不懷好意者提供全新工具，並創建出逼真的深度偽造內容，這將讓人們越來越難以區分真偽。

OpenAI已經在該系統生成的視頻中加上了浮水印，表明這些視頻是由AI生成的。但該公司也承認，這些浮水印可被移除，浮水印可能難以被發現。

OpenAI發言人強調稱，在將Sora用於OpenAI的産品之前，該公司正在採取幾項重要的安全措施。例如，該公司已使用了自動化流程，旨在防止其商業AI模型生成針對政客和名人的虛假內容。（記者劉霞）