818無煙廚房日:解析火星人十四年油煙攻堅戰的深厚底蘊 | 運動中的好聲音,Shokz韶音創新驅動下的音質飛躍 | 一站式新能源産業資訊平臺面世丨鋰電 光伏 氫能最新行情一觸即得 | 華為官宣夏日禮遇限時優惠活動,助力鴻蒙生態吸引更多用戶 | 數量第一!浪潮電腦3款産品入選“首批山東省首件套電子産品”! | 中科微智成立《院士專家(科技)工作站》,授牌儀式在京舉行 | 心服務·全無憂丨英軒重工叉車事業部2024年服務萬里行再啟新程 | KIDNOW凱蒂諾入局營養補充劑市場,脂質體産品線搶眼 | 雲上數據如何智慧防護勒索攻擊?這家企業給出一份滿分答案 | 沙特龍城開業在即,中沙經貿合作步新程 |
 
當前位置: 新聞>滾動>

特斯聯研發新突破 Transformer架構中的動態一元卷積神經網路

發佈時間:2024-07-17 16:09:59  |  來源:中國網科學  |  作者:  |  責任編輯:科學頻道

近日,特斯聯首席科學家、特斯聯國際總裁邵嶺博士及其合作團隊發表最新研究成果,探索將卷積神經網路(ConvNets)的優勢與Transformer架構相結合的並行設計方法。該研究成果可廣泛應用於多模態學習、圖像分類、圖像分割、圖像檢索等場景,並能夠有效提升模型在電腦視覺任務中的性能、提供更佳的靈活度,改善醫療診斷、自動駕駛等現實場景的感知能力及分析能力,為深度學習模型的設計提供了全新的思路。目前,這一研究成果已被人工智慧領域頂級學術期刊IEEE T-PAMI收錄,題為:Dynamic Unary Convolution in Transformers。

image.png

現有卷積神經網路架構(A)和Transformer架構(B)以及團隊所提出DUCT(Transformer架構中的動態一元卷積神經網路)塊對比圖。儘管此前的研究將卷積及Tranformer層以(C)整合,近期的趨勢為以塊狀方式交替Transformer和卷積神經網路(D)。團隊所提出的DUCT(E)為並行架構,在塊狀設計中結合了動態局部增強模組、一元共現激勵模組和多頭自注意力。

以下為論文摘錄。

當前,關於Transformer架構是否有能力補充卷積神經網路,尚無確切定論。近期的一些嘗試通過一系列架構,將卷積與Transformer設計結合起來;而本論文的研究成果聚焦于探索一種並行設計方法。

儘管此前基於Transformer的方法需要將圖像分割成塊狀單元,團隊觀察到在卷積特徵上進行的多頭自注意力(multi-head self-attention)主要對全局關係敏感,而當這些關係沒有顯示時,多頭自注意力性能將會下降。因而,團隊提出以兩個平行模組以及多頭自注意力來增強Transformer。

具體而言,在該研究中:

·團隊首次嘗試在混合Conv-Trans(卷積-Transformer)塊中整合併行結構。

·引入了一個動態局部增強模組(Dynamic Local Enhancement, DLE),用於保留高度資訊性的局部區域資訊。

·提出了一個全新的一元共現激勵模組(Unary Co-occurrence Excitation, UCE),通過在局部區域間尋找位置不變的共現關係,增強模型對局部特徵的捕捉能力。

image.png

團隊所提出的動態局部增強模組(DLE)和一元共現激勵模組(UCE)在不同的電腦視覺任務中的示意圖。DLE旨在為卷積(以橙色顯示)的重要局部區域分配權重。UCE搜索局部區域與其他區域之間的獨特共現關係。這種在特徵圖層面的共現可以實現更高的不變性。DLE、UCE和多頭自注意力結合起來,以互補的方式檢測局部、中層和全局資訊。

並行設計的Transformer架構中的動態一元卷積神經網路(DUCT)塊被聚合成一種深層架構,該架構在基於圖像的分類、分割、檢索和密度估計等基本電腦視覺任務中進行了全面評估。定性和定量結果均表明,團隊所提出的具有動態一元卷積的並行Conv-Transformer方法,優於現有的串聯設計結構。

DUCT的提出在學術上推動了Transformer和卷積神經網路的融合,在實際應用中亦具有廣泛潛在價值,有助於推動電腦視覺技術的發展和創新。在圖像分類方面,DUCT能夠處理圖像並將其分類到不同的類別中,這對於圖像識別、內容分析和檢索等任務至關重要;在圖像分割中,在醫學成像、自動駕駛和機器人視覺等領域,DUCT可輔助將圖像劃分為多個區域對象,以便於進一步分析;在圖像檢索中,DUCT可用於改進圖像檢索系統,如通過物體識別來搜索特定圖像或視頻幀;在多模態學習領域,由於DUCT結合了卷積和自注意力機制,其可應用於處理和分析多種模態的數據,如圖像、文本和音頻。

未來,特斯聯將進一步夯實其在AIoT領域的技術研發能力,在實現前沿突破的同時,亦為深入行業的應用創造全新可能性。