崑崙萬維正式發佈Skywork R1V4-Lite,多模態智慧體邁向開放式交互時代
11月18日,崑崙萬維正式發佈Skywork R1V4-Lite,一款整合視覺操作、推理與規劃的輕量級多模態智慧體。它不僅能進行深度推理,還在同一模型中統一了主動圖像操作、外部工具調用、多模態深度研究三大能力。
與傳統只能“看圖回答”的模型不同,Skywork R1V4-Lite能夠在真實場景中隨手拍照即可完成複雜任務:自動旋轉圖像判斷空間位置、多次放大讀取模糊文字、繪製輔助線驗證幾何關係、跨模態搜索定位真實地點……這些過去只有在大型模型或專用Agent系統中才能實現的能力,如今在輕量多模態智慧體Skywork R1V4-Lite中即可完成。
這意味著用戶不需要設計提示詞,不需要提供額外資訊,只需拍一張圖,Skywork R1V4-Lite就能自己觀察、操作、推理並給出答案。從感知到行動,從推理到驗證,Skywork R1V4-Lite讓“即時多模態洞察”成為現實,為多模態智慧體從封閉推理邁向開放式交互提供了新的技術路徑。
在多個權威視覺與感知基準上,Skywork R1V4-Lite展現出超過預期的競爭力:在8個多模態理解基準評測上整體領先Gemini 2.5 Flash,其中5個任務上超過Gemini 2.5 Pro的水準。


這證實了“圖像操作 ×深度推理”訓練範式的有效性,並展現出極強的scaling潛力:即便是小模型,也能逼近頂級閉源模型的表現。
01核心優勢一:隨手拍解題,即時理解的主動視覺操作
Skywork R1V4-Lite在推理過程中並非被動“看圖回答”,而是具備主動式圖像操作能力:在遇到視角受限或資訊不足的場景時,模型會自動執行裁切(Crop)、放大(Zoom)、旋轉(Rotate)、區域定位等操作,構建一條透明且可回溯的“視覺行動鏈”。
R1V4-Lite展現出物理邏輯理解力:它先對圖像進行幾何校正,再基於正確視角進行空間關係推理。
當任務要求極高精度時,R1V4-Lite會進一步主動進行微觀級操作:放大區域、生成參考線、構建輔助判斷策略。對於需要“精密判斷”的任務,模型不會直接給答案,而是會先構建輔助工具來確保結果嚴謹可靠。
在需要主動式圖像操作能力的任務中,模型會主動進行多步裁剪放大的圖像操作,找到對應的圖片區域,使推理結果具備可解釋性與嚴謹性。這一過程完整展示了R1V4-Lite的視覺行動力:模型不再“被動看圖”,而是在複雜場景中主動探索、驗證、修正與整合,實現真正意義上的“邊觀察、邊思考、邊行動”。
02核心優勢二:多模態深度研究,領先的輕量級搜索增強能力
Skywork R1V4-Lite也支援接入聯網搜索功能,在聯網搜索下會自動觸發深度研究能力:
通過構建推理腳手架,與外部世界進行搜索、檢索、比對等主動交互。觸發搜索、檢索、比對等多種外部資源交互,將搜索結果與視覺推理深度融合,形成“搜索—推理—驗證”的閉環。模型由此獲得跨模態、跨資源的知識擴展能力,推理邊界顯著拉寬。

從結果上看,R1V4-Lite在多模態DeepResearch類任務中展現出了領先趨勢:在mm-search上以66分超過Gemini 2.5 Flash的64.9分,在FVQA上以67分顯著領先Gemini 2.5 Flash的60.8分。這一系列結果強有力地驗證了“圖像操作 ×深度推理交織訓練”範式的有效性。
面對複雜問題,R1V4-Lite能夠進行多輪推理與資訊整合。
R1V4-Lite 不僅在學術、法律、生態與醫學場景中展現出強大的多模態深度推理能力,在電商智慧與內容理解方面同樣表現卓越。 r1v4-lite在複雜的圖片輸入下,找到了商品來源並給出了詳細的商品介紹。這種能力可直接應用於智慧導購、圖搜找同款、跨平臺商品比價等典型電商場景。
03核心優勢三:看圖即可規劃,主動式多模態任務規劃
R1V4-planner-lite可以支援真正意義上的主動式多模態 Agentic 規劃,首次讓視覺輸入能夠直接驅動任務鏈規劃,將推理鏈擴展為可執行鏈。
從一張圖像出發,Planner能夠自動構建一條可執行的多輪任務鏈(task chain),並完成:
任務分解(Task Decomposition)
工具選擇(Tool Selection)
參數生成(Parameter Generation)
執行順序規劃(Execution Ordering)
這意味著模型首次從傳統的 “看圖回答” → “看圖行動”,具備了由視覺驅動的行動規劃能力。
在此基礎上,R1V4-Planner-Lite將規劃能力擴展到系統級(system-level planning):模型會綜合用戶意圖、上下文、可用工具與任務依賴關係(dependency graph),自動生成結構化的執行方案,並以高度可解釋的形式給出每一步的工具、參數與目的。這為Agentic智慧提供了可控性、透明度和穩定性。
Skywork R1V4-Lite並非傳統意義上的“小模型”。它是業界首個在輕量級架構下同時實現:圖像操作(Crop / Zoom / Rotate)、深度推理(Long-form Reasoning)和任務規劃(Agentic Planning)三能力統一的多模態智慧體。
在極小參數規模下,Skywork R1V4-Lite依然能進行端到端的深度思考與主動執行,實現從 “視覺輸入” 一直推到 “任務完成” 的完整能力鏈。
04核心優勢四:小尺寸、快響應、低成本
Skywork R1V4-Lite在模型規模、推理速度與吞吐效率之間實現了極佳工程平衡。這意味著它不僅適合工程落地,也能支撐極高的併發和實時性要求,是移動端、應用內推理和高 QPS 産品的更優選項。
通過更高效的模型優化與繼承Qwen3 A3B輕量架構設計,它在真實生産環境中展現出遠超同體量模型的性能表現:
1. 響應速度(Latency)
- 約為Gemini 2.5 Pro的1/19
- 約為Gemini 2.5 Flash的1/5
2. Token 吞吐(TPS)
- 為Gemini 2.5 Pro/Flash的約2倍
3. 端到端完成速度:依託更強的推理壓縮能力與極低的工具調用輪次,在工具調用與長推理任務(端到端使用工具),R1V4-Lite實現了:
- 比Gemini 2.5 Pro快2.9×
- 比Gemini 2.5 Flash快1.7×
憑藉低延遲×高吞吐×極低成本的組合優勢,R1V4-Lite完美適用於:
實時問答
視覺檢索
智慧助手
多模態工具調用
高併發的線上生産場景
R1V4-Lite的發佈證明了——小模型也能很強,小模型也能很快,小模型也能多模態。
05展望
R1V4-Lite的成功不僅來自工程優化,更源自其背後的多模態新範式:圖像操作×深度推理交織訓練。這一訓練路線讓輕量模型具備跨模態推理、主動圖像操作、任務規劃與搜索增強的統一能力,展示了輕量多模態智慧體的全新可能性。
這一結果進一步説明:能力密度比參數規模更重要,小模型也能逼近閉源模型的真實表現。隨著更大容量與更強結構進一步加入該範式,其scaling潛力將持續釋放。目前,Skywork R1V4-Pro也即將準備發佈。
未來,崑崙萬維旗下Skywork將沿著 “Multimodal Reasoning×Agentic Intelligence×Tool Augmentation” 路線繼續前進,讓模型不僅理解世界,還能更有效地與世界資訊交互,並在真實任務産生實際價值。
(責任編輯:王晨曦)