arXiv:2504.03724v2 Announce Type: replace 
Abstract: We propose Fuzzy Group Relative Policy Reward (FGRPR), a novel framework that integrates Group Relative Policy Optimization (GRPO) with a fuzzy reward function to enhance learning efficiency. Unlike the conventional binary 0/1 accuracy reward, our fuzzy reward model provides nuanced incentives, encouraging more precise outputs. Experimental results demonstrate that GRPO with a standard 0/1 accuracy reward underperforms compared to supervised fine-tuning (SFT). In contrast, FGRPR, applied to Qwen2.5-VL(3B and 7B), surpasses all baseline models, including GPT4o, LLaMA2(90B), and SFT, across five in-domain datasets. On an out-of-domain dataset, FGRPR achieves performance comparable to SFT but excels when target values are larger, as its fuzzy reward function assigns higher rewards to closer approximations. This approach is broadly applicable to tasks where the precision of the answer is critical. Code and data: https://github.com/yeyimilk/CrowdVLM-R1

إطار Fuzzy Group Relative Policy Reward (FGRPR) الجديد يعزز عد الحشود من خلال دمج تقنيات التعلم المتقدمة. يقدم هذا النهج المبتكر نظام مكافآت أكثر دقة مقارنة بالطرق التقليدية، مما يؤدي إلى تحسين الدقة والكفاءة في النتائج. تظهر النتائج التجريبية أن هذه الطريقة تتفوق بشكل كبير على مكافآت الدقة القياسية، مما يمثل تقدمًا واعدًا في هذا المجال.

El nuevo marco Fuzzy Group Relative Policy Reward (FGRPR) mejora el conteo de multitudes al integrar técnicas de aprendizaje avanzadas. Este enfoque innovador ofrece un sistema de recompensas más matizado en comparación con los métodos tradicionales, lo que lleva a una mayor precisión y eficiencia en los resultados. Los resultados experimentales muestran que este método supera significativamente las recompensas de precisión estándar, marcando un avance prometedor en el campo.

Le nouveau cadre Fuzzy Group Relative Policy Reward (FGRPR) améliore le comptage de foule en intégrant des techniques d'apprentissage avancées. Cette approche innovante offre un système de récompense plus nuancé par rapport aux méthodes traditionnelles, conduisant à une précision et une efficacité accrues des résultats. Les résultats expérimentaux montrent que cette méthode surpasse considérablement les récompenses de précision standard, marquant une avancée prometteuse dans le domaine.

The new Fuzzy Group Relative Policy Reward (FGRPR) framework enhances crowd counting by integrating advanced learning techniques. This innovative approach offers a more nuanced reward system compared to traditional methods, leading to improved accuracy and efficiency in outputs. Experimental results show that this method significantly outperforms standard accuracy rewards, marking a promising advancement in the field.

CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward

Was this article worth reading? Share it

Ready to build your own newsroom?