arXiv:2511.15661v1 Announce Type: cross 
Abstract: Reinforcement learning (RL) provides a principled framework for improving Vision-Language Models (VLMs) on complex reasoning tasks. However, existing RL approaches often rely on human-annotated labels or task-specific heuristics to define verifiable rewards, both of which are costly and difficult to scale. We introduce VisPlay, a self-evolving RL framework that enables VLMs to autonomously improve their reasoning abilities using large amounts of unlabeled image data. Starting from a single base VLM, VisPlay assigns the model into two interacting roles: an Image-Conditioned Questioner that formulates challenging yet answerable visual questions, and a Multimodal Reasoner that generates silver responses. These roles are jointly trained with Group Relative Policy Optimization (GRPO), which incorporates diversity and difficulty rewards to balance the complexity of generated questions with the quality of the silver answers. VisPlay scales efficiently across two model families. When trained on Qwen2.5-VL and MiMo-VL, VisPlay achieves consistent improvements in visual reasoning, compositional generalization, and hallucination reduction across eight benchmarks, including MM-Vet and MMMU, demonstrating a scalable path toward self-evolving multimodal intelligence. The project page is available at https://bruno686.github.io/VisPlay/

VisPlay هو إطار تعلم معزز ذاتي التطور مصمم لتحسين نماذج الرؤية-اللغة (VLM) من خلال تمكينها من تحسين قدراتها على التفكير بشكل مستقل باستخدام كميات كبيرة من بيانات الصور غير المعلّمة. يعمل من خلال دورين: مُسْتَفْهَم مشروط بالصورة يقوم بصياغة أسئلة بصرية صعبة ولكن يمكن الإجابة عليها، ومفكر متعدد الوسائط يقوم بتوليد ردود فضية. يستخدم الإطار تحسين سياسة نسبية جماعية لتحقيق التوازن بين تعقيد الأسئلة وجودة الردود.

VisPlay es un marco de aprendizaje por refuerzo auto-evolutivo diseñado para mejorar los Modelos de Visión-Lenguaje (VLM) permitiendo que mejoren de forma autónoma sus capacidades de razonamiento utilizando grandes cantidades de datos de imágenes no etiquetadas. Funciona a través de dos roles: un Cuestionador Condicionado por Imágenes que genera preguntas visuales y un Razonador Multimodal que proporciona respuestas. El marco utiliza la Optimización de Políticas Relativas de Grupo para equilibrar la complejidad de las preguntas y la calidad de las respuestas.

VisPlay est un cadre d'apprentissage par renforcement auto-évolutif conçu pour améliorer les modèles de vision-langage (VLM) en leur permettant d'améliorer de manière autonome leurs capacités de raisonnement à l'aide de grandes quantités de données d'images non étiquetées. Il fonctionne à travers deux rôles : un questionneur conditionné par l'image qui génère des questions visuelles et un raisonneur multimodal qui fournit des réponses. Le cadre utilise l'optimisation de politique relative de groupe pour équilibrer la complexité des questions et la qualité des réponses.

VisPlay is a self-evolving reinforcement learning framework designed to enhance Vision-Language Models (VLMs) by enabling them to autonomously improve their reasoning capabilities using large amounts of unlabeled image data. It operates through two roles: an Image-Conditioned Questioner that generates visual questions and a Multimodal Reasoner that provides responses. The framework employs Group Relative Policy Optimization to balance question complexity and answer quality.

VisPlay: Self-Evolving Vision-Language Models from Images

arXiv:2508.13378v3 Announce Type: replace 
Abstract: Small Language Models (SLMs) are a practical option for narrow, workflow-relevant medical imaging utilities where privacy, latency, and cost dominate. We present a governance-ready recipe that combines prompt scaffolds, calibrated abstention, and standards-compliant integration into Picture Archiving and Communication Systems (PACS). Our focus is the assistive task of AP/PA view tagging for chest radiographs. Using four deployable SLMs (Qwen2.5-VL, MiniCPM-V, Gemma 7B, LLaVA 7B) on NIH Chest X-ray, we provide illustrative evidence: reflection-oriented prompts benefit lighter models, whereas stronger baselines are less sensitive. Beyond accuracy, we operationalize abstention, expected calibration error, and oversight burden, and we map outputs to DICOM tags, HL7 v2 messages, and FHIR ImagingStudy. The contribution is a prompt-first deployment framework, an operations playbook for calibration, logging, and change management, and a clear pathway from pilot utilities to reader studies without over-claiming clinical validation. We additionally specify a human-factors RACI, stratified calibration for dataset shift, and an auditable evidence pack to support local governance reviews.

تظهر النماذج اللغوية الصغيرة (SLMs) كأدوات فعالة لمهام محددة في التصوير الطبي، خاصة في البيئات التي تهيمن عليها الخصوصية والكمون والتكلفة. يقدم هذا المقال إطار عمل جاهز للحكومة يجمع بين هياكل المطالبات، والامتناع المعاير، والتكامل المتوافق مع أنظمة أرشفة الصور والتواصل (PACS). يركز البحث على وسم عرض AP/PA للأشعة السينية للصدر، باستخدام أربعة نماذج لغوية صغيرة قابلة للنشر. تشير النتائج إلى أن المطالبات الموجهة للتفكير تفيد النماذج الأخف، بينما تكون النماذج الأقوى أقل حساسية لهذه المطالبات.

Los pequeños modelos de lenguaje (SLMs) están surgiendo como herramientas efectivas para tareas específicas de imagenología médica, especialmente en entornos donde la privacidad, la latencia y el costo son críticos. Este artículo presenta un marco listo para la gobernanza que integra andamiajes de prompts, abstención calibrada y cumplimiento con los sistemas de archivo y comunicación de imágenes (PACS). El enfoque está en el etiquetado de vistas AP/PA para radiografías de tórax, utilizando cuatro SLM desplegables. Los hallazgos indican que los prompts orientados a la reflexión mejoran el rendi…

Les petits modèles de langage (SLMs) émergent comme des outils efficaces pour des tâches spécifiques d'imagerie médicale, en particulier dans des environnements où la confidentialité, la latence et le coût sont critiques. Cet article présente un cadre prêt à la gouvernance qui intègre des échafaudages de prompts, une abstention calibrée et une conformité avec les systèmes d'archivage et de communication d'images (PACS). L'accent est mis sur le marquage de vues AP/PA pour les radiographies thoraciques, en utilisant quatre SLM déployables. Les résultats indiquent que les prompts orientés vers la…

Small Language Models (SLMs) are emerging as effective tools for specific medical imaging tasks, particularly in environments where privacy, latency, and cost are critical. This article presents a governance-ready framework that integrates prompt scaffolds, calibrated abstention, and compliance with Picture Archiving and Communication Systems (PACS). The focus is on AP/PA view tagging for chest radiographs, utilizing four deployable SLMs. The findings indicate that reflection-oriented prompts enhance performance in lighter models, while stronger models show less sensitivity to these prompts.

Governance-Ready Small Language Models for Medical Imaging: Prompting, Abstention, and PACS Integration

arXiv:2511.11704v1 Announce Type: new 
Abstract: We present a lightweight yet effective pipeline for training vision-language models to solve math problems by rendering LaTeX encoded equations into images and pairing them with structured chain-of-thought prompts. This simple text-to-vision augmentation enables compact multimodal architectures to achieve state-of-the-art reasoning accuracy. Through systematic ablations, we find that rendering fidelity and prompt design are the primary drivers of performance. Despite its simplicity, our approach consistently matches or surpasses both open-source and proprietary math-focused vision-language solvers on widely used benchmarks, while preserving broad general-domain competence - showing gains on tasks such as MMMU, ChartQA, and DocVQA of up to 20%.

تم تقديم نهج جديد لتدريب نماذج الرؤية-اللغة لحل المشكلات الرياضية، باستخدام معادلات مشفرة بلغة LaTeX تم تحويلها إلى صور، مقترنة بمطالبات منظمة. تعزز هذه الطريقة دقة التفكير في الهياكل متعددة الوسائط المدمجة. تسلط الدراسة الضوء على أن دقة العرض وتصميم المطالبات هما المحركان الرئيسيان للأداء. على الرغم من بساطته، فإن نهجنا يتطابق باستمرار أو يتجاوز كل من الحلول المفتوحة المصدر والخاصة التي تركز على الرياضيات في المعايير المستخدمة على نطاق واسع، مع إظهار مكاسب في مهام مثل MMMU وChartQA وDocVQA تصل إلى 20%.

Se ha presentado un nuevo enfoque para entrenar modelos de visión-lenguaje para resolver problemas matemáticos, utilizando ecuaciones en LaTeX renderizadas junto con indicaciones estructuradas. Este método mejora la precisión del razonamiento en arquitecturas multimodales compactas. El estudio destaca que la fidelidad del renderizado y el diseño de las indicaciones son factores clave que influyen en el rendimiento. El pipeline propuesto logra consistentemente igualar o superar el rendimiento de los solucionadores de visión-lenguaje centrados en matemáticas existentes en varios benchmarks, most…

Une nouvelle approche pour former des modèles de vision-langage à résoudre des problèmes mathématiques a été introduite, utilisant des équations LaTeX rendues associées à des invites structurées. Cette méthode améliore la précision du raisonnement dans des architectures multimodales compactes. L'étude souligne que la fidélité de rendu et la conception des invites influencent considérablement les performances. Le pipeline proposé atteint ou dépasse systématiquement les performances des solveurs de vision-langage axés sur les mathématiques existants sur divers benchmarks, montrant des améliorati…

A new approach for training vision-language models to solve mathematical problems has been introduced, utilizing rendered LaTeX equations paired with structured prompts. This method enhances reasoning accuracy in compact multimodal architectures. The study highlights that rendering fidelity and prompt design significantly influence performance. The proposed pipeline consistently achieves or exceeds the performance of existing math-focused vision-language solvers on various benchmarks, demonstrating improvements in tasks like MMMU, ChartQA, and DocVQA by up to 20%.

VisPlay: Self-Evolving Vision-Language Models from Images

Was this article worth reading? Share it