用AI訓練AI，可能越練越“傻”

發佈時間：2024-07-29 10:43:10 | 來源：新華網 | 作者： | 責任編輯：郭頂

對於人工智慧（AI）大語言模型來説，通常給予的訓練數據越多，模型就會越“聰明”。但英國《自然》雜誌新發表的一項關於大模型的研究顯示，如果只用AI生成的數據來訓練大模型，會使模型性能下降、越練越“傻”。

英國牛津大學、康橋大學等機構研究人員發現，如果在訓練大模型時，只用AI生成的內容，會導致大模型出現不可逆的缺陷，逐漸忘記真實數據的分佈，這被稱為“模型崩潰”。

2024年4月23日，在德國漢諾威工博會上，參觀者與一款智慧機器人進行“石頭剪子布”遊戲。新華社記者任鵬飛攝

研究人員首先使用大語言模型創建類似維基百科詞條的文本，然後利用這個內容來訓練該模型的新版本，並反覆使用前代模型生成的文本訓練更新的版本。隨著AI生成的資訊“污染”訓練集，模型的輸出逐漸失去意義。在模型的第九次迭代中，它完成了一篇關於英國教堂塔樓的文章，其中一段文字卻在講述野兔尾巴的多種顏色。

研究發現，導致“模型崩潰”的重要原因是，由於模型只能從其訓練數據中採樣，一些在第一代數據中本就低頻出現的詞彙，在每次迭代後出現的頻率變得更低，而一些常見詞彙出現的頻率則逐漸增加。

這種變化的結果就是，模型逐漸無法正確模擬真實世界的複雜性。隨著時間推移，這種錯誤會在迭代中被層層累積、逐漸放大，最終導致“模型崩潰”。這有點像生物學中“近親繁殖”會導致後代缺陷，如果不能保證基因庫的多樣性，最終會導致一個物種的崩潰。

研究人員還發現，由於訓練數據被“污染”而導致“模型崩潰”的情況不止發生在大語言模型中，高斯混合模型、圖片生成器等也可能出現類似情況。

不過，應對“模型崩潰”並非束手無策。研究人員發現，如果能在模型微調過程中保留10%左右的真實數據，崩潰就會發生得更緩慢。還可使用浮水印技術，將AI生成的數據與真實數據區分開來，這需要大型科技公司的協作。此外，在AI生成的文本重新進入數據池之前，可由人類先篩選過濾。