arXiv:2509.15207v3 Announce Type: replace-cross 
Abstract: We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of $10.0\%$ over GRPO and $5.1\%$ over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

يقدم FlowRL نهجًا جديدًا للتعلم المعزز في نماذج اللغة الكبيرة من خلال التركيز على مطابقة توزيع المكافآت الكامل بدلاً من مجرد تعظيم المكافآت. تتناول هذه الطريقة قيود تقنيات تعظيم المكافآت التقليدية، التي غالبًا ما تتجاهل مسارات التفكير الأقل شيوعًا ولكنها صالحة، مما يؤدي إلى نقص في التنوع في استجابات النموذج. من خلال تحقيق التوازن بين المكافآت، يعزز FlowRL قدرات التفكير في نماذج اللغة الكبيرة، مما يمثل تقدمًا كبيرًا في مجال الذكاء الاصطناعي والتعلم الآلي.

FlowRL presenta un enfoque novedoso para el aprendizaje por refuerzo en modelos de lenguaje grandes, centrándose en igualar la distribución completa de recompensas en lugar de solo maximizar las recompensas. Este método aborda las limitaciones de las técnicas tradicionales de maximización de recompensas, que a menudo pasan por alto caminos de razonamiento menos frecuentes pero válidos, lo que lleva a una falta de diversidad en las respuestas del modelo. Al equilibrar las recompensas, FlowRL mejora las capacidades de razonamiento de los LLM, lo que representa un avance significativo en el campo de la IA y el aprendizaje automático.

FlowRL propose une nouvelle approche de l'apprentissage par renforcement dans les grands modèles de langage en se concentrant sur l'appariement de la distribution complète des récompenses plutôt que sur la simple maximisation des récompenses. Cette méthode répond aux limites des techniques traditionnelles de maximisation des récompenses, qui négligent souvent des chemins de raisonnement moins fréquents mais valides, entraînant un manque de diversité dans les réponses des modèles. En équilibrant les récompenses, FlowRL améliore les capacités de raisonnement des LLM, ce qui constitue une avancée significative dans le domaine de l'IA et de l'apprentissage automatique.

FlowRL introduces a novel approach to reinforcement learning in large language models by focusing on matching the full reward distribution rather than just maximizing rewards. This method addresses the limitations of traditional reward-maximizing techniques, which often overlook less frequent but valid reasoning paths, leading to a lack of diversity in model responses. By balancing rewards, FlowRL enhances the reasoning capabilities of LLMs, making it a significant advancement in the field of AI and machine learning.

FlowRL: Matching Reward Distributions for LLM Reasoning

Was this article worth reading? Share it

Ready to build your own newsroom?