arXiv:2511.09232v1 Announce Type: new 
Abstract: Speech Large Language Models (SpeechLLMs) have achieved breakthroughs in multilingual speech-to-text translation (S2TT). However, existing approaches often overlook semantic commonalities across source languages, leading to biased translation performance. In this work, we propose \textbf{POTSA} (Parallel Optimal Transport for Speech Alignment), a new framework based on cross-lingual parallel speech pairs and Optimal Transport (OT), designed to bridge high- and low-resource translation gaps. First, we introduce a Bias Compensation module to coarsely align initial speech representations across languages. Second, we impose token-level OT constraints on a Q-Former using parallel speech pairs to establish fine-grained consistency of representations. Then, we apply a layer scheduling strategy to focus OT constraints on the most semantically beneficial layers. Experiments on the FLEURS dataset show that our method achieves SOTA performance, with +0.93 BLEU on average over five common languages and +5.05 BLEU on zero-shot languages, using only 10 hours of parallel speech per source language.

تقديم إطار POTSA يمثل تقدمًا كبيرًا في ترجمة الكلام إلى نص متعدد اللغات، حيث يتناول التحيزات في النماذج الحالية. باستخدام 10 ساعات فقط من بيانات الكلام المتوازية لكل لغة، حقق POTSA أداءً رائدًا، حيث زاد دقة الترجمة بمقدار 0.93 BLEU في المتوسط عبر خمس لغات و5.05 BLEU للغات بدون تدريب مسبق. هذا التطور مهم لتحسين قدرات الترجمة في اللغات ذات الموارد المحدودة.

La introducción del marco POTSA representa un avance significativo en la traducción de voz a texto multilingüe, abordando los sesgos en los modelos existentes. Al utilizar solo 10 horas de datos de voz paralelos por idioma, POTSA logró un rendimiento de vanguardia, mejorando la precisión de la traducción en 0.93 BLEU en promedio en cinco idiomas y 5.05 BLEU para idiomas en cero disparos. Este desarrollo es crucial para mejorar las capacidades de traducción en idiomas de bajos recursos.

L'introduction du cadre POTSA représente une avancée significative dans la traduction de la parole en texte multilingue, en s'attaquant aux biais des modèles existants. En utilisant seulement 10 heures de données de parole parallèles par langue, POTSA a atteint des performances de pointe, améliorant la précision de traduction de 0,93 BLEU en moyenne sur cinq langues et de 5,05 BLEU pour les langues en zéro-shot. Ce développement est crucial pour améliorer les capacités de traduction dans les langues à faibles ressources.

The introduction of the POTSA framework marks a significant advancement in multilingual speech-to-text translation, addressing biases in existing models. By utilizing only 10 hours of parallel speech data per language, POTSA achieved state-of-the-art performance, improving translation accuracy by 0.93 BLEU on average across five languages and 5.05 BLEU for zero-shot languages. This development is crucial for enhancing translation capabilities in low-resource languages.

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation

Was this article worth reading? Share it

ShareSpeak

Airparser

OpenL Translator

Dubsmart LLC

OneSky Localization Agent

MarsHub

Ready to build your own newsroom?