中國網/中國發展門戶網訊 (記者 王振紅) 近日,中國科學院自動化研究所曾毅研究員課題組在Cell Press細胞出版社旗下期刊Patterns上發表了一篇題為“Challenging Deep Learning Models with Image Distortion based on the Abutting Grating Illusion”的新研究。他們基於人類和生物視覺系統中廣泛存在的幻覺輪廓現象啟發,提出了一種將機器學習視覺數據集轉換成幻覺輪廓樣本的方法,量化測量了當前的深度學習模型對幻覺輪廓識別能力,實驗結果證明從經典的到最先進的深度神經網路都難以像人一樣具有較好的幻覺輪廓識別能力。
此項研究提出了系統性生成幻覺輪廓樣本的方法。將視覺認知和機器學習數據集結合,實現了對神經網路幻覺輪廓感知能力的量化。測試了大量公開的預訓練神經網路模型,發現幻覺輪廓感知較好的模型展現出了計算神經科學理論預言的端點激活現象。
神經網路和深度學習模型在過去十年中看似取得巨大成功,在許多給定的視覺任務中在指定方面超過了人類表現。然而,神經網路的性能仍然會隨著各種圖像扭曲和損壞而降低。一個非常極端的例子是對抗攻擊,通過在圖片上施加人眼難以察覺的微擾,能夠使神經網路模型徹底失效。而人類的視覺系統在這些問題上具有高度魯棒性,説明深度學習與生物視覺系統相比仍然存在根本性缺陷。
此項研究主要研究了深度學習對交錯光柵幻覺的識別能力。交錯光柵幻覺是一個經典的幻覺輪廓現象,位移的光柵會在沒有亮度對比的情況下誘發出虛假的邊緣和形狀。標準的交錯光柵錯覺能夠讓人類在實際上沒有物理邊界的情況下感知到中間的垂直線。交錯光柵錯覺被廣泛應用於生理學研究中,以探索幻覺輪廓的生物視覺處理。深度學習模型的幻覺輪廓感知相關研究相對較少,目前僅有幾篇相關論文。研究深度學習模型對幻覺輪廓感知的魯棒性比圖像干擾魯棒性更加複雜,主要障礙是幻覺輪廓的樣本有限。大多數研究分析的幻覺輪廓都是在先前的心理學文獻中手動設計的。這些測試圖片無法直接與深度學習模型訓練的任務相匹配,同時由於數量很少,無法形成一個有相對規模的測試集,很難以機器學習的方式去衡量深度學習模型的幻覺輪廓感知能力。
中國科學院自動化研究所曾毅研究員負責的類腦認知智慧研究組提出了一種名為交錯光柵扭曲(Abutting Grating Distortion)的圖像干擾方法,作為量化神經網路模型幻覺輪廓感知能力的工具。該方法可直接應用於具有外部輪廓而沒有紋理資訊的剪影圖像,從而系統性地生成大量幻覺輪廓圖像。這項研究將這一方法應用於手寫數字MNIST數據集和物體的剪影圖像(16-class-ImageNet silhouettes)上,並且通過插值增強圖像的清晰度,從而生成對人眼具有更強幻覺效應的測試集圖像。
研究結果表明,大多數預訓練模型的表現接近隨機。另外可以觀測到當交錯光柵之間的距離較小時,存在一些模型的結果與其他模型的分佈有較顯著的差別。最終這項研究發現使用深度增強(DeepAugment)技術訓練的模型相比其他模型能夠顯著增強模型對交錯光柵扭曲數據集的識別。
同時這項研究也招募了24名人類受試者,從而評估不同的參數設置下,人類的幻覺輪廓感知能力以及其對數字和圖像識別的影響。這項研究發現即使是當前最先進的深度學習演算法在交錯光柵效應的識別上也與人類水準相距甚遠。
實驗中的所有深度神經網路模型無論是否被訓練,使用了什麼方式訓練,在maxpool層都産生了神經動力學層面的沿著幻覺輪廓的激活。然而即使如此,這一神經動力學層面的激活並沒有能夠幫助到深度神經網路最終在行為學層面識別出幻覺輪廓。而唯一擁有相對好的幻覺輪廓感知能力的深度增強模型,則表現出了端點激活效應(endstopping property),這一效應是其他模型沒有表現出來的。這揭示了未來突破這個問題重點在於端點激活和幻覺輪廓的關係。
圖 類似端點激活神經元的現象和理論預言的拓撲結構
論文第一作者中科院自動化所類腦認知智慧課題組范津宇説:“這項研究結合了認知科學和人工智慧,提出了將傳統機器視覺數據集轉換成認知科學中的交錯光柵幻覺圖像,首次對大量的公開預訓練神經網路模型的幻覺輪廓感知能力進行量化測量,並且從神經元動力學角度和行為學兩個角度檢驗深度學習和神經網路模型對幻覺輪廓的感知。”
論文通訊作者中科院自動化所類腦認知智慧課題組負責人曾毅研究員説:“我們認為這項研究最大的特點是從認知科學的角度檢驗和部分重新審視了當前看似成功的人工神經網路模型,並且證明人工神經網路模型與人腦視覺處理過程仍然存在著很大差距,這還只是人工智慧與人類認知顯著距離的冰山一角。大腦運作的機理和智慧的本質將繼續啟發人工智慧,特別是神經網路的研究。如想從本質上取得突破,人工智慧需要借鑒並受自然演化、腦與心智的啟發,建立智慧的理論體系,這樣的人工智慧才會有長遠的未來。”