arXiv:2511.02652v1 Announce Type: new 
Abstract: Vision Transformers rely on fixed patch tokens that ignore the spatial and semantic structure of images. In this work, we introduce an end-to-end differentiable tokenizer that adapts to image content with pixel-level granularity while remaining backward-compatible with existing architectures for retrofitting pretrained models. Our method uses hierarchical model selection with information criteria to provide competitive performance in both image-level classification and dense-prediction tasks, and even supports out-of-the-box raster-to-vector conversion.

تم تقديم نهج جديد لتجزئة الصور، مما يعزز من أداء Transformers البصرية من خلال السماح لها بالتكيف مع محتوى الصورة على مستوى البكسل. يحتفظ هذا المجزئ المبتكر بالتوافق مع الهياكل الحالية، مما يسهل إعادة تجهيز النماذج المدربة مسبقًا. تستخدم الطريقة اختيار نموذج هرمي لتحقيق أداء متميز في المهام المتعلقة بالصورة.

Se ha introducido un nuevo enfoque para la tokenización visual, mejorando los Vision Transformers al permitirles adaptarse al contenido de la imagen a nivel de píxel. Este innovador tokenizador mantiene la compatibilidad con arquitecturas existentes, facilitando la adaptación de modelos preentrenados. El método emplea selección de modelos jerárquicos para lograr un rendimiento impresionante en tareas a nivel de imagen.

Une nouvelle approche de la tokenisation visuelle a été introduite, améliorant les Vision Transformers en leur permettant de s'adapter au contenu des images au niveau des pixels. Ce tokenizer innovant maintient la compatibilité avec les architectures existantes, facilitant ainsi la mise à niveau des modèles pré-entraînés. La méthode utilise une sélection de modèles hiérarchiques pour obtenir des performances impressionnantes dans les tâches au niveau des images.

A new approach to visual tokenization has been introduced, enhancing Vision Transformers by allowing them to adapt to image content at a pixel level. This innovative tokenizer maintains compatibility with existing architectures, making it easier to retrofit pretrained models. The method employs hierarchical model selection to achieve impressive performance in image-level tasks.

Differentiable Hierarchical Visual Tokenization

One More Thing in AI – Your Shortcut to AI Mastery

Differentiable Hierarchical Visual Tokenization

Was this article worth reading? Share it

One More Thing in AI

Airparser

Humanize AI

The Visualizer

Attentive AI

Https

Ready to build your own newsroom?