當前位置：新聞>滾動>

CVPR 2024：中科視語領跑工業大模型，工業混合專家模型再奪桂冠

發佈時間：2024-07-05 07:51:27 | 來源：新浪財經 | 作者： | 責任編輯：科學頻道

近日,在全球權威的CVPR2024視覺異常檢測和創新性檢測挑戰賽中,中科視語AI團隊提交的“少量樣本異常檢測使用專家混合模型”以0.818的出色成績,從全球17個國家和地區,百餘支頂尖AI團隊中脫穎而出,摘下桂冠。這再次展現了中科視語在工業大模型領域的雄厚實力。

隨著大模型技術的發展,技術先進性和性能卓越性的要求更加苛刻,中科視語持續堅定、專注投入大模型研發,深入磨煉“內功”,建立技術壁壘,夯實技術優勢,正是憑藉中科視語深厚的技術積澱和長期積累的市場經驗,視語坤川工業大模型核心技術連續多次取得國際領先的成果。本次獲獎,是繼登頂2019 VideoNet視頻內容識別挑戰賽、2022道路損壞檢測世界競賽桂冠後的又一里程碑,這標誌著中科視語在少樣本邏輯/結構異常檢測技術上取得了新的突破。也正是憑藉持續的技術革新,中科視語在工業大模型領域積累了顯著的競爭優勢。

2024電腦視覺領域的頂級學術會議CVPR,是由IEEE電腦協會和電腦視覺基金會(Computer Vision Foundation,CVF)共同主辦,是一年一度的全球電腦視覺領域與模式識別領域最頂尖的學術會議。其與ECCV(European Conference on Computer Vision)、ICCV(IEEE/CVF International Conference on Computer Vision)一起並稱為電腦視覺領域的三大最高級別的頂級會議。

面對日益激烈的市場競爭和不斷變化的技術環境,中科視語始終保持前瞻性思維和創新精神。為了高效節約成本並提高效率,我們持續更新迭代,在xx的基礎上,採用了前沿的Mixture of Experts(MoE)架構。MoE架構的核心優勢是旨在通過模組化的方式降低更多的成本,實現更大的推理規模和更快的推理速度。這一創新架構使我們在市場化競爭中更具優勢。

MoE架構將複雜任務分解為多個子任務,由不同的“專家”模組並行處理。這種分工合作的方式不僅提高了處理效率,還實現了更精準的模型預測。通過降低冗余計算和資源消耗,我們能夠以更低的成本實現更高的性能,從而在市場上形成更有優勢的競爭地位。

圖 1中科視語AI團隊斬獲少樣本邏輯/結構異常檢測賽道(VAND 2.0)賽道第一名

少樣本工業異常檢測比賽VAND2.0

從飛機火車到螺絲螺母,工業産品在我們的生活中無處不在。為了保證這些産品能夠正常發揮其功能,避免安全事故,在生産過程中進行異常檢測是極為必要的。近年來,隨著電腦視覺技術的飛速發展,基於深度學習的工業異常檢測方法層出不窮,成為學術和工業界的研究熱點。因此,CVPR會議連續兩年舉辦VAND挑戰賽,鼓勵研究者進一步探索工業異常檢測的有效方法。

本次VAND比賽分為兩個賽道:

1.Adapt & Detect: Robust Anomaly Detection in Real-World Applications

2. VLM Anomaly Challenge: Few-Shot Learning for Logical and Structural Detection

研究團隊參加的是第二個賽道,重點研究基於多模態模型的少樣本邏輯和結構異常檢測方法。比賽使用的數據集將常見的異常分為結構異常和邏輯異常兩類。結構異常指的是諸如破損、劃痕這種在正常樣本上不會出現的異常情況;邏輯異常則指正常物品的錯誤組合。例如,每個塑膠袋中應該包含一長一短兩個螺絲釘、兩個螺母、兩個墊片。然而,在邏輯異常樣本中,可能包含三個螺母,這類異常難以通過簡單比對來判斷,需要使用新的異常檢測方式。

此外,賽道二在少樣本設置下進行異常檢測,即要求模型在訓練期間從未見過來自測試數據集中的任何正常樣本,只在推理期間提供少量正常樣本以供參考,這要求方法具有較高的遷移能力。

圖 2正常樣本、結構異常和邏輯異常示意圖

圖 3研究團隊在 CVPR 2024的演講彙報

圖 4研究團隊在 CVPR 2024的展示海報

基於混合專家模型的少樣本異常檢測方法AnomalyMoE

為了高效檢測出不同類別的異常,研究團隊提出了混合專家模型AnomalyMoE,充分發揮不同類型的異常檢測方法的優勢,使用 4個不同的異常檢測專家模型:圖文異常檢測專家模型,全局異常檢測專家模型,子部分異常檢測專家模型,圖像塊異常檢測專家模型,並結合這四個專家模型的打分結果以得到最後的異常分數。

圖 5 AnomalyMoE結構圖

圖文異常檢測專家模型FiLo

圖文異常檢測專家模型方面,研究團隊主要使用了自己之前的工作FiLo [1],FiLo創新性地使用大語言模型來為每一類物品生成其可能出現的異常種類,並使用可學習的文本向量來取代人工編寫的文本模板,減少了工作量,提高了異常檢測性能,並能夠通過與圖像特徵最相似的文本描述內容來判斷樣品上的具體異常類型,提高了模型決策的可解釋性。

全局異常檢測專家模型

全局異常檢測方面,研究團隊使用視覺-文本多模態大模型CLIP提取圖像全局特徵,將測試樣本的全局特徵與少量正常樣本的全局特徵進行比較,根據與正常樣本的相似度來判斷圖像中是否有異常。圖文異常檢測專家模型和全局異常檢測專家模型在檢測全局邏輯異常方面具有明顯優勢。

子部分異常檢測專家模型

通過將圖像分為多個子部分,異常檢測方法能夠方便統計每個子部分中的面積、數量、顏色,從而方便判斷樣本中的每個部分是否為異常。研究團隊使用子部分異常檢測專家模型,通過 DINO提取特徵再聚類的方式得到每一個子部分的掩碼,然後進行檢測。子部分異常檢測專家模型對於局部邏輯異常,如上文提到的螺母的新增、缺失等,具有良好的檢測效果。

圖像塊異常檢測專家模型AnomalyGPT

圖像塊異常檢測專家模型通過比較測試圖像的每個圖像塊和正常圖像的每個圖像塊的內容,判斷每個圖像塊是否為異常。在圖像塊異常檢測專家模型的實現上,研究團隊主要使用了他們在 AAAI 2024上發表的方法 AnomalyGPT [2],使用大語言模型實現工業異常檢測,在少樣本異常檢測方面具有顯著效果。

MoE架構的引入是中科視語技術創新之路上的又一重要里程碑。它不僅體現了我們對技術進步的不懈追求,也展示了我們在實現技術可持續發展和落地方面的堅定決心。未來,我們將繼續探索和利用前沿技術,為客戶提供更優質的服務,為社會創造更多的價值。

參考文獻:

[1]Gu, Z., Zhu, B., Zhu, G., Chen, Y., Li, H., Tang, M., & Wang, J. (2024). FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization. arXiv preprint arXiv:2404.13671.

[2]Gu, Z., Zhu, B., Zhu, G., Chen, Y., Tang, M., & Wang, J. (2024, March). Anomalygpt: Detecting industrial anomalies using large vision-language models. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 38, No. 3, pp.1932-1940).