arXiv:2511.11198v1 Announce Type: new 
Abstract: Geospatial chain of thought (CoT) reasoning is essential for advancing Visual Question Answering (VQA) on satellite imagery, particularly in climate related applications such as disaster monitoring, infrastructure risk assessment, urban resilience planning, and policy support. Existing VQA models enable scalable interpretation of remote sensing data but often lack the structured reasoning required for complex geospatial queries. We propose a VQA framework that integrates CoT reasoning with Direct Preference Optimization (DPO) to improve interpretability, robustness, and accuracy. By generating intermediate rationales, the model better handles tasks involving detection, classification, spatial relations, and comparative analysis, which are critical for reliable decision support in high stakes climate domains. Experiments show that CoT supervision improves accuracy by 34.9\% over direct baselines, while DPO yields additional gains in accuracy and reasoning quality. The resulting system advances VQA for multispectral Earth observation by enabling richer geospatial reasoning and more effective climate use cases.

يعتبر التفكير الجغرافي المتسلسل (CoT) أمرًا حيويًا لتعزيز الإجابة على الأسئلة المرئية (VQA) باستخدام الصور الفضائية، خاصة في التطبيقات المتعلقة بالمناخ مثل مراقبة الكوارث وتخطيط القدرة على التحمل الحضري. يمكن لنماذج VQA الحالية تفسير بيانات الاستشعار عن بعد، لكنها غالبًا ما تفتقر إلى التفكير المنظم المطلوب للاستفسارات الجغرافية المعقدة. تم اقتراح إطار عمل جديد يدمج التفكير CoT مع تحسين التفضيلات المباشرة (DPO)، مما يظهر تحسينًا بنسبة 34.9% في الدقة عند التعامل مع مهام مثل الكشف والتصنيف.

El razonamiento geoespacial en cadena de pensamiento (CoT) es fundamental para mejorar la respuesta a preguntas visuales (VQA) en imágenes satelitales, especialmente en aplicaciones relacionadas con el clima como el monitoreo de desastres y la planificación de la resiliencia urbana. Los modelos VQA existentes pueden interpretar datos de teledetección, pero a menudo carecen del razonamiento estructurado necesario para consultas geoespaciales complejas. Se ha propuesto un nuevo marco que integra el razonamiento CoT con la Optimización de Preferencias Directas (DPO), mostrando una mejora del 34.9…

Le raisonnement géospatial en chaîne de pensée (CoT) est essentiel pour améliorer le questionnement visuel (VQA) sur les images satellites, en particulier dans les applications liées au climat telles que la surveillance des catastrophes et la planification de la résilience urbaine. Les modèles VQA existants peuvent interpréter les données de télédétection, mais manquent souvent du raisonnement structuré nécessaire pour des requêtes géospatiales complexes. Un nouveau cadre intégrant le raisonnement CoT avec l'optimisation des préférences directes (DPO) a été proposé, montrant une amélioration d…

Geospatial chain of thought (CoT) reasoning is crucial for enhancing Visual Question Answering (VQA) on satellite imagery, especially in climate-related applications like disaster monitoring and urban resilience planning. Current VQA models can interpret remote sensing data but often lack the structured reasoning needed for complex geospatial queries. A new framework integrating CoT reasoning with Direct Preference Optimization (DPO) has been proposed, showing a 34.9% accuracy improvement in handling tasks such as detection and classification.

Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery

One More Thing in AI – Your Shortcut to AI Mastery

Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery

Was this article worth reading? Share it

One More Thing in AI

LucidQuery AI

Attentive AI

The Visualizer

Cogent

Inline Help

Ready to build your own newsroom?