arXiv:2511.18411v1 Announce Type: new 
Abstract: Although the community has tackled the acquisition of high-quality Arabic pretraining data, we still lack large-scale, multi-turn Arabic datasets that include reasoning and tool calling. Naive translation can work at the pretraining scale, but post-training demands much higher quality, which requires a stricter approach to dataset curation. In this work, we introduce SmolKalam, a translation of Smoltalk2 that uses a multi-model ensemble translation pipeline, applies quality filtering, and examines effective translation techniques for traditional decoder-only models through ablations.

تم تقديم SmolKalam كنظام ترجمة جديد مصمم لتحسين جودة بيانات ما بعد التدريب باللغة العربية من خلال استخدام خط أنابيب ترجمة متعدد النماذج وتطبيق تقنيات تصفية الجودة الصارمة. تتناول هذه المبادرة نقص مجموعات البيانات العربية عالية الجودة على نطاق واسع التي تتضمن التفكير واستدعاء الأدوات، وهو أمر أساسي للتطبيقات المتقدمة في الذكاء الاصطناعي.

SmolKalam se ha presentado como un nuevo sistema de traducción diseñado para mejorar la calidad de los datos de post-entrenamiento en árabe mediante el uso de un pipeline de traducción de conjunto multi-modelo y la aplicación de técnicas rigurosas de filtrado de calidad. Esta iniciativa aborda la falta de conjuntos de datos árabes de alta calidad y a gran escala que incluyan razonamiento y llamadas a herramientas, esenciales para aplicaciones avanzadas de IA.

SmolKalam a été introduit comme un nouveau système de traduction conçu pour améliorer la qualité des données post-formation en arabe en utilisant un pipeline de traduction par ensemble multi-modèles et en appliquant des techniques de filtrage de qualité rigoureuses. Cette initiative répond au besoin de jeux de données arabes de grande qualité et à grande échelle qui intègrent le raisonnement et l'appel d'outils, essentiels pour les applications avancées de l'IA.

SmolKalam has been introduced as a new translation system designed to enhance the quality of Arabic post-training data by utilizing a multi-model ensemble translation pipeline and applying rigorous quality filtering techniques. This initiative addresses the existing gap in high-quality, large-scale Arabic datasets that incorporate reasoning and tool calling, which are essential for advanced AI applications.

SmolKalam: Ensemble Quality-Filtered Translation at Scale for High Quality Arabic Post-Training Data

One More Thing in AI – Your Shortcut to AI Mastery

SmolKalam: Ensemble Quality-Filtered Translation at Scale for High Quality Arabic Post-Training Data

Was this article worth reading? Share it

One More Thing in AI

Chattermate

LucidQuery AI

Dubsmart LLC

OpenL Translator

Sawal AI

Ready to build your own newsroom?