許多人仍認為人工智慧(AI)生成的語音聽起來“機械感”明顯,但英國倫敦瑪麗女王大學研究團隊在新出版的《公共科學圖書館·綜合》雜誌上發表論文指出,AI語音合成技術已進入新階段,其生成的“克隆語音”或深度偽造聲音,逼真度與真人錄音無異。
研究團隊採用當前最先進的AI語音合成工具,生成兩類合成語音:一類是基於真人錄音的“克隆”聲音,旨在模倣特定説話者;另一類則由大型語音模型生成,不針對具體個人。參與者被要求辨別聲音的真實性與可信度。
儘管研究未發現AI聲音存在“超真實效應”(即比真人更像真人),但結果顯示,“克隆語音”的逼真度已與真人聲音不相上下,令人難以分辨。且部分AI生成的聲音在可信度評價中甚至超越了真人錄音。
研究團隊表示,AI語音已滲透日常生活,如Alexa、Siri及各類客服系統。雖然當前系統音色仍具機械特徵,但自然度接近人聲的AI語音技術已然成熟。利用商用軟體僅需幾分鐘真人錄音,即可快速、低成本地生成高品質聲音克隆,且幾乎無需專業知識。
最新研究顯示,公眾對高倣真語音認知機制的研究迫在眉睫。AI語音技術的飛速發展有望給教育、人機交互等領域帶來創新機遇——在這些領域,定制的高品質合成語音可增強用戶體驗。但是,合成語音也對倫理、版權和安全構成挑戰,尤其在虛假資訊、詐騙與身份冒用等方面需加強防範。
(責任編輯:柯曉霽)