arXiv:2509.00974v4 Announce Type: replace 
Abstract: Medical question answering requires advanced reasoning that integrates domain knowledge with logical inference. However, existing large language models (LLMs) often generate reasoning chains that lack factual accuracy and clinical reliability. We propose Ranked Preference Reinforcement Optimization (RPRO), a novel framework that combines reinforcement learning with preference-driven reasoning refinement to enhance clinical chain-of-thought (CoT) performance. RPRO distinguishes itself from prior approaches by employing task-adaptive reasoning templates and a probabilistic evaluation mechanism that aligns model outputs with established clinical workflows, while automatically identifying and correcting low-quality reasoning chains. Unlike traditional pairwise preference methods, RPRO introduces a groupwise ranking optimization based on the Bradley--Terry model and incorporates KL-divergence regularization for stable training. Experiments on PubMedQA, MedQA-USMLE, and a real-world clinical dataset from Far Eastern Memorial Hospital (FEMH) demonstrate consistent improvements over strong baselines. Remarkably, our 2B-parameter model outperforms much larger 7B--20B models, including medical-specialized variants. These findings demonstrate that combining preference optimization with quality-driven refinement provides a scalable and clinically grounded approach to building more reliable medical LLMs.

تم اقتراح إطار عمل جديد يسمى تحسين تفضيلات الترتيب المعزز (RPRO) لتعزيز الإجابة على الأسئلة الطبية والتفكير التشخيصي من خلال دمج التعلم المعزز مع تحسين التفكير القائم على التفضيلات. يهدف هذا النهج المبتكر إلى تحسين دقة وموثوقية سلاسل التفكير التي تنتجها النماذج اللغوية الكبيرة في السياقات السريرية.

Se ha propuesto un nuevo marco llamado Optimización de Preferencias Clasificadas por Refuerzo (RPRO) para mejorar la respuesta a preguntas médicas y el razonamiento diagnóstico, integrando el aprendizaje por refuerzo con el refinamiento del razonamiento basado en preferencias. Este enfoque innovador busca mejorar la precisión y la fiabilidad de las cadenas de razonamiento generadas por los grandes modelos de lenguaje en entornos clínicos.

Un nouveau cadre appelé Optimisation par Renforcement de Préférences Classées (RPRO) a été proposé pour améliorer les réponses aux questions médicales et le raisonnement diagnostique en intégrant l'apprentissage par renforcement avec un raffinement du raisonnement basé sur les préférences. Cette approche innovante vise à améliorer l'exactitude et la fiabilité des chaînes de raisonnement générées par les grands modèles de langage dans les contextes cliniques.

A new framework called Ranked Preference Reinforcement Optimization (RPRO) has been proposed to enhance medical question answering and diagnostic reasoning by integrating reinforcement learning with preference-driven reasoning refinement. This innovative approach aims to improve the accuracy and reliability of reasoning chains generated by large language models in clinical settings.

RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning

arXiv:2510.01612v2 Announce Type: replace 
Abstract: The exponential growth of biomedical literature creates significant challenges for accessing precise medical information. Current biomedical question-answering systems primarily focus on short-form answers, failing to provide the comprehensive explanations necessary for clinical decision-making. We present RAG-BioQA, a novel framework combining retrieval-augmented generation with domain-specific fine-tuning to produce evidence-based, long-form biomedical answers. Our approach integrates BioBERT embeddings with FAISS indexing and compares various re-ranking strategies (BM25, ColBERT, MonoT5) to optimize context selection before synthesizing evidence through a fine-tuned T5 model. Experimental results on the PubMedQA dataset show significant improvements over baselines, with our best model achieving substantial gains across BLEU, ROUGE, and METEOR metrics, advancing the state of accessible, evidence-based biomedical knowledge retrieval.

تم تقديم إطار عمل RAG-BioQA لمعالجة التحديات التي يطرحها النمو الأسي للأدبيات الطبية الحيوية، مع التركيز على تقديم إجابات طويلة قائمة على الأدلة لأسئلة الطب الحيوي. يجمع هذا النظام بين الجيل المعزز بالاسترجاع والتخصيص المحدد للمجال، باستخدام تمثيلات BioBERT وفهرسة FAISS لتحسين جودة الردود. تُظهر النتائج التجريبية تحسينات كبيرة في مقاييس الأداء مقارنة بالنماذج الحالية.

Se ha presentado el marco RAG-BioQA para abordar los desafíos que plantea el crecimiento exponencial de la literatura biomédica, centrándose en proporcionar respuestas largas y basadas en evidencia para preguntas biomédicas. Este sistema integra la generación aumentada por recuperación con un ajuste específico del dominio, utilizando embeddings de BioBERT y un indexado FAISS para mejorar la calidad de las respuestas. Los resultados experimentales muestran mejoras significativas en las métricas de rendimiento en comparación con los modelos existentes.

Le cadre RAG-BioQA a été introduit pour relever les défis posés par la croissance exponentielle de la littérature biomédicale, en se concentrant sur la fourniture de réponses longues et basées sur des preuves aux questions biomédicales. Ce système intègre la génération augmentée par récupération avec un ajustement spécifique au domaine, utilisant des embeddings BioBERT et un indexage FAISS pour améliorer la qualité des réponses. Les résultats expérimentaux indiquent des améliorations significatives des métriques de performance par rapport aux modèles existants.

The RAG-BioQA framework has been introduced to address the challenges posed by the exponential growth of biomedical literature, focusing on providing long-form, evidence-based answers for biomedical questions. This system integrates retrieval-augmented generation with domain-specific fine-tuning, utilizing BioBERT embeddings and FAISS indexing to enhance the quality of responses. Experimental results indicate significant improvements in performance metrics over existing models.

RPRO: Ranked Preference Reinforcement Optimization for Enhancing Medical QA and Diagnostic Reasoning

Was this article worth reading? Share it

CRANQ

LLMrefs

TheQuizMaster