arXiv:2511.07691v1 Announce Type: new 
Abstract: Preference optimization is a critical post-training technique used to align large language models (LLMs) with human preferences, typically by fine-tuning on ranked response pairs. While methods like Direct Preference Optimization (DPO) have proven effective in English, they often fail to generalize robustly to multilingual settings. We propose a simple yet effective alternative, Confidence-Aware Preference Optimization (CAPO), which replaces DPO's fixed treatment of preference pairs with a dynamic loss scaling mechanism based on a relative reward. By modulating the learning signal according to the confidence in each preference pair, CAPO enhances robustness to noisy or low-margin comparisons, typically encountered in multilingual text. Empirically, CAPO outperforms existing preference optimization baselines by at least 16% in reward accuracy, and improves alignment by widening the gap between preferred and dispreferred responses across languages.

يقدم المقال طريقة تحسين التفضيلات الحساسة للثقة (CAPO)، وهي طريقة جديدة لمواءمة نماذج اللغة الكبيرة (LLMs) مع تفضيلات البشر في السياقات متعددة اللغات. تحسن CAPO طريقة تحسين التفضيلات المباشرة (DPO) من خلال استخدام آلية ديناميكية لتعديل الخسائر، مما يؤدي إلى زيادة بنسبة 16% في دقة المكافآت وتحسين التوافق عبر اللغات. هذه الخطوة مهمة لأنها تعالج قيود الطرق الحالية التي تواجه صعوبات في البيئات متعددة اللغات.

El artículo presenta la Optimización de Preferencias Sensible a la Confianza (CAPO), un nuevo método para alinear modelos de lenguaje (LLMs) con preferencias humanas en contextos multilingües. CAPO mejora la Optimización de Preferencias Directa (DPO) al utilizar un mecanismo dinámico de escalado de pérdidas, resultando en un aumento del 16% en la precisión de recompensas y mejor alineación entre idiomas. Este avance es significativo ya que aborda las limitaciones de los métodos existentes que luchan en entornos multilingües.

L'article présente la méthode d'Optimisation de Préférences Sensible à la Confiance (CAPO), qui aligne les modèles de langage (LLMs) avec les préférences humaines dans des contextes multilingues. CAPO améliore l'Optimisation de Préférences Directe (DPO) en utilisant un mécanisme de mise à l'échelle dynamique des pertes, entraînant une augmentation de 16 % de la précision des récompenses et une meilleure alignement entre les langues. Cette avancée est significative car elle répond aux limitations des méthodes existantes qui peinent dans les contextes multilingues.

The article introduces Confidence-Aware Preference Optimization (CAPO), a new method for aligning large language models (LLMs) with human preferences in multilingual contexts. CAPO improves upon Direct Preference Optimization (DPO) by using a dynamic loss scaling mechanism, resulting in a 16% increase in reward accuracy and better alignment across languages. This advancement is significant as it addresses the limitations of existing methods that struggle with multilingual settings.

CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences

Was this article worth reading? Share it

Ready to build your own newsroom?