arXiv:2506.21656v2 Announce Type: replace 
Abstract: Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.

تم تقديم نموذج جديد يسمى SpatialReasoner-R1 لتحسين قدرات نماذج الرؤية-اللغة (VLM) في التفكير المكاني الدقيق. يتناول هذا النموذج التحديات التي تواجه VLM، خاصة في المهام التي تتطلب منطق متعدد الخطوات ومحاذاة مكانية دقيقة. من خلال استخدام طريقة بحث شجرة مونت كارلو متعددة النماذج، يقوم SpatialReasoner-R1 بإنشاء إشراف متنوع ومنطقي لمهام التفكير المكاني. هذه الخطوة مهمة لأنها قد تؤدي إلى تحسين الأداء في التطبيقات التي تعتمد على الفهم المكاني الدقيق، مما يجعل VLM أكثر فعالية في السيناريوهات الواقعية.

Se ha presentado un nuevo modelo llamado SpatialReasoner-R1 para mejorar las capacidades de los Modelos de Visión-Lenguaje (VLM) en el razonamiento espacial detallado. Este modelo aborda los desafíos que enfrentan los VLM, especialmente en tareas que requieren lógica de múltiples pasos y alineación espacial precisa. Al emplear un método de Búsqueda de Árbol de Monte Carlo Multi-Modelo, SpatialReasoner-R1 genera supervisión diversa y lógicamente sólida para tareas de razonamiento espacial. Este avance es significativo, ya que podría llevar a un mejor rendimiento en aplicaciones que dependen de una comprensión espacial precisa, haciendo que los VLM sean más efectivos en escenarios del mundo real.

Un nouveau modèle appelé SpatialReasoner-R1 a été introduit pour améliorer les capacités des modèles de vision-langage (VLM) en matière de raisonnement spatial précis. Ce modèle répond aux défis rencontrés par les VLM, notamment dans les tâches nécessitant une logique multi-étapes et un alignement spatial précis. En utilisant une méthode de recherche d'arbre de Monte Carlo multi-modèle, SpatialReasoner-R1 génère une supervision diversifiée et logiquement solide pour les tâches de raisonnement spatial. Cette avancée est significative car elle pourrait améliorer les performances dans des applications nécessitant une compréhension spatiale précise, rendant les VLM plus efficaces dans des scénarios réels.

A new model called SpatialReasoner-R1 has been introduced to enhance the capabilities of Vision-Language Models (VLMs) in fine-grained spatial reasoning. This model addresses the challenges faced by VLMs, particularly in tasks requiring multi-step logic and precise spatial alignment. By employing a Multi-Model Monte Carlo Tree Search method, SpatialReasoner-R1 generates diverse and logically sound supervision for spatial reasoning tasks. This advancement is significant as it could lead to improved performance in applications that rely on accurate spatial understanding, making VLMs more effective in real-world scenarios.

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

arXiv:2601.06204v2 Announce Type: replace 
Abstract: Intelligent anomaly detection in dynamic visual environments requires reconciling real-time performance with semantic interpretability. Conventional approaches address only fragments of this challenge. Reconstruction-based models capture low-level deviations without contextual reasoning, object detectors provide speed but limited semantics, and large vision-language systems deliver interpretability at prohibitive computational cost. This work introduces a cascading multi-agent framework that unifies these complementary paradigms into a coherent and interpretable architecture. Early modules perform reconstruction-gated filtering and object-level assessment, while higher-level reasoning agents are selectively invoked to interpret semantically ambiguous events. The system employs adaptive escalation thresholds and a publish-subscribe communication backbone, enabling asynchronous coordination and scalable deployment across heterogeneous hardware. Extensive evaluation on large-scale monitoring data demonstrates that the proposed cascade achieves a threefold reduction in latency compared to direct vision-language inference, while maintaining high perceptual fidelity (PSNR = 38.3 dB, SSIM = 0.965) and consistent semantic labeling. The framework advances beyond conventional detection pipelines by combining early-exit efficiency, adaptive multi-agent reasoning, and explainable anomaly attribution, establishing a reproducible and energy-efficient foundation for scalable intelligent visual monitoring.

تم تقديم إطار عمل جديد للكشف عن الشذوذ متعدد الوكلاء في أنظمة المراقبة، باستخدام نماذج الرؤية-اللغة وتصنيف قائم على التضمين لتحسين الأداء في الوقت الحقيقي وقابلية التفسير الدلالي. تتكامل هذه الطريقة مع منهجيات مختلفة، بما في ذلك التصفية المعتمدة على إعادة البناء والتقييم على مستوى الكائن، لمعالجة تعقيدات الكشف عن الشذوذ في البيئات البصرية الديناميكية.

Se ha introducido un nuevo marco para la detección de anomalías en cascada mediante múltiples agentes en sistemas de vigilancia, utilizando modelos de visión-lenguaje y clasificación basada en embeddings para mejorar el rendimiento en tiempo real y la interpretabilidad semántica. Este enfoque integra diversas metodologías, incluyendo filtrado basado en reconstrucción y evaluaciones a nivel de objeto, para abordar las complejidades de la detección de anomalías en entornos visuales dinámicos.

Un nouveau cadre pour la détection d'anomalies en cascade à plusieurs agents dans les systèmes de surveillance a été introduit, utilisant des modèles de vision-langage et une classification basée sur l'embedding pour améliorer la performance en temps réel et l'interprétabilité sémantique. Cette approche intègre diverses méthodologies, y compris le filtrage basé sur la reconstruction et les évaluations au niveau des objets, pour répondre aux complexités de la détection d'anomalies dans des environnements visuels dynamiques.

A new framework for cascading multi-agent anomaly detection in surveillance systems has been introduced, utilizing vision-language models and embedding-based classification to enhance real-time performance and semantic interpretability. This approach integrates various methodologies, including reconstruction-gated filtering and object-level assessments, to address the complexities of detecting anomalies in dynamic visual environments.

Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification

arXiv:2508.13680v3 Announce Type: replace-cross 
Abstract: We introduce VMMU, a Vietnamese Multitask Multimodal Understanding and Reasoning Benchmark designed to evaluate how vision-language models (VLMs) interpret and reason over visual and textual information beyond English. VMMU consists of 2.5k multimodal questions across 7 tasks, covering a diverse range of problem contexts, including STEM problem solving, data interpretation, rule-governed visual reasoning, and abstract visual reasoning. All questions require genuine multimodal integration, rather than reliance on text-only cues or OCR-based shortcuts. We evaluate a diverse set of state-of-the-art proprietary and open-source VLMs on VMMU. Despite strong Vietnamese OCR performance, proprietary models achieve only 66% mean accuracy. Further analysis shows that the primary source of failure is not OCR, but instead multimodal grounding and reasoning over text and visual evidence. Code and data are available at https://vmmu.github.io.

تم تقديم VMMU، وهو معيار فيتنامي لفهم وتقييم المهام المتعددة متعددة الوسائط، بهدف تقييم قدرات نماذج اللغة والرؤية (VLM) في تفسير واستنتاج المعلومات المرئية والنصية باللغة الفيتنامية. يتضمن هذا المعيار 2.5 ألف سؤال متعدد الوسائط عبر سبع مهام متنوعة، مع التركيز على التكامل الحقيقي متعدد الوسائط بدلاً من الاعتماد على الإشارات النصية فقط.

La introducción de VMMU, un referente vietnamita para la evaluación de la comprensión y el razonamiento multimodal, tiene como objetivo evaluar las capacidades de los modelos de lenguaje y visión (VLM) para interpretar y razonar sobre información visual y textual en vietnamita. Este referente incluye 2.5k preguntas multimodales en siete tareas diversas, enfatizando la integración multimodal genuina en lugar de depender únicamente de pistas textuales.

L'introduction de VMMU, une référence vietnamienne pour l'évaluation de la compréhension et du raisonnement multimodal, vise à évaluer les capacités des modèles de langage et de vision (VLM) à interpréter et raisonner sur des informations visuelles et textuelles en vietnamien. Cette référence comprend 2,5k questions multimodales réparties sur sept tâches diverses, mettant l'accent sur une véritable intégration multimodale plutôt que sur des indices uniquement textuels.

The introduction of VMMU, a Vietnamese Multitask Multimodal Understanding and Reasoning Benchmark, aims to assess the capabilities of vision-language models (VLMs) in interpreting and reasoning over visual and textual information in Vietnamese. This benchmark includes 2.5k multimodal questions across seven diverse tasks, emphasizing genuine multimodal integration rather than text-only cues.

VMMU: A Vietnamese Multitask Multimodal Understanding and Reasoning Benchmark

One More Thing in AI – Your Shortcut to AI Mastery

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Was this article worth reading? Share it

One More Thing in AI

LucidQuery AI

LangWatch

The Visualizer

Attentive AI

Supametas.AI

Ready to build your own newsroom?