xT : Modélisation de grandes images avec tokenisation imbriquée

TL;DR

xT introduit une tokenisation imbriquée pour gérer des images extrêmement grandes en les divisant en régions et en les traitant avec des encodeurs de région, puis un encodeur de contexte qui rapproche les pièces.
Il permet une modélisation end‑to‑end sur des GPU modernes, en traitant des images jusqu’à 29 000 × 25 000 pixels sur des A100 de 40 Go, bien au-delà de ce que les approches de référence peuvent gérer.
L’architecture combine des encodeurs régionaux (experts locaux) et un encodeur de contexte (intégrateur global), utilisant des transformeurs de longue séquence pour capturer des dépendances distantes sans sacrifier les détails.
Il obtient de meilleures performances sur des tâches en aval (p. ex., iNaturalist 2018, xView3-SAR, MS-COCO) avec moins de paramètres et une mémoire par région moindre que les baselines.
Le travail est documenté dans un billet BAIR et un article arXiv complet, avec une page de projet reliant le code et les poids libérés.

Contexte et arrière-plan

Les images haute résolution sont de plus en plus répandues, des caméras grand public aux images satellites, mais les modèles de vision modernes peinent à suivre lorsque la taille de l’image augmente. L’utilisation de la mémoire tend à croître quadratiquement avec la taille de l’image, ce qui pousse à réduire ou à rogner l’image. Cela entraîne des pertes substantielles d’information et de contexte global, rendant difficile la compréhension à la fois de la scène globale et des détails fins. Les auteurs soutiennent que chaque pixel porte une information et proposent un changement de paradigme : traiter les grandes images comme une hiérarchie de parties gérables analysées localement et globalement. L’idée centrale est une tokenisation imbriquée où l’image est divisée en régions pouvant être subdivisées selon le besoin, avant d’être patchifiée pour être traitée par le backbone de vision. Source.

Ce qui est nouveau

xT propose une architecture scalable pour modéliser des images extrêmement grandes end-to-end grâce à une tokenisation imbriquée et à deux types d’encodeurs :

L’encodeur de région : un « expert local » qui convertit chaque région en une représentation détaillée. Les régions sont traitées isolément et l’encodeur de région peut être n’importe quel backbone de pointe (par exemple Swin, Hiera, ConvNeXt).
L’encodeur de contexte : un modèle de longue séquence qui assemble les représentations régionales pour assurer que les informations d’un token sont considérées dans le contexte des autres. Les chercheurs utilisent Transformer-XL et une variante appelée Hyper, ainsi que Mamba; des modèles à longue séquence conçus à l’origine pour le langage peuvent être efficaces pour la vision. Cette combinaison de tokenisation imbriquée, d’encoders locaux et d’un encoder global permet le traitement end-to-end d’images massives sur des GPUs modernes, sans compromettre le contexte global.

Pourquoi c’est important (impact pour les développeurs/entreprises)

Gérer des images ultra-grandes sans perdre le contexte global ouvre des possibilités dans des domaines qui exigent à la fois une vue d’ensemble et des détails fins. En surveillance environnementale, les scientifiques peuvent suivre des changements à travers de vastes paysages tout en examinant des zones d’intérêt spécifiques. En santé, le diagnostic d’images peut bénéficier de l’analyse de lames larges sans négliger les détails microscopiques. Éviter les réductions agressives de résolution ou les recadrages permet des représentations plus fidèles et peut améliorer les tâches en aval dépendantes du contexte et du détail.

Détails techniques ou Mise en œuvre

Architecture : tokenisation imbriquée qui divise l’image en régions, pouvant être subdivisées, puis patchifiée pour le traitement par l’encodeur de région. L’encodeur de région agit comme un extracteur de caractéristiques locales.
Encodeurs : les encodeurs de région peuvent être Swin, Hiera, ConvNeXt, etc. Les encodeurs de contexte utilisent des modèles de longue séquence (Transformer-XL et variantes comme Hyper et Mamba) ; le Longformer est mentionné comme option potentielle.
Capacité end-to-end : xT peut modéliser des images extrêmement grandes end-to-end sur des GPUs modernes.
Benchmarks et échelle : évaluations sur iNaturalist 2018 (classification fine), xView3-SAR (segmentation dépendante du contexte) et MS-COCO (détection).
Utilisation des ressources : meilleure précision avec moins de paramètres et mémoire par région par rapport aux baselines. Démonstration clé : modéliser des images jusqu’à 29 000 × 25 000 pixels sur 40 Go A100, les baselines équivalentes se heurtant à la mémoire à des tailles bien plus petites. La page de projet propose le code et les poids libérés. Source
Disponibilité : le traitement complet est publié sur arXiv, et la page du projet lie le code et les poids libérés. Source

Points à retenir

La tokenisation imbriquée permet de décomposer des images très grandes en parties gérables sans perdre le contexte global.
Une architecture en deux volets (encodeurs de région + encodeur de contexte) offre de meilleures performances avec moins de mémoire par région.
Les modèles de longue séquence peuvent être réutilisés pour agréger les informations entre des régions éloignées d’une image.
L’approche permet un traitement end-to-end sur des GPUs existants, élargissant la faisabilité de l’analyse d’images gigapixel dans la recherche et les applications.
Les résultats sur plusieurs benchmarks indiquent une voie pratique pour analyser des images extrêmement grandes dans des domaines comme la surveillance environnementale et la santé.

FAQ

Comment xT gère des images extrêmement grandes sans réduction ni recadrage ?

En utilisant une tokenisation imbriquée qui divise l’image en régions, en traitant chaque région avec un encodeur local et en utilisant un encodeur de contexte pour fusionner les régions.
Quels modèles pour les encodeurs de région et de contexte ?

Les encodeurs de région peuvent être Swin, Hiera, ConvNeXt; les encodeurs de contexte utilisent des variantes de Transformer-XL (Hyper, Mamba), Longformer est mentionné comme option.
Quel matériel a été utilisé pour les images à grande échelle ?

Images jusqu’à 29 000 × 25 000 pixels sur 40 Go d’A100, avec des baselines qui manquent de mémoire à des tailles bien plus petites.
Sur quelles tâches xT a-t-il été évalué ?

iNaturalist 2018, xView3-SAR et MS-COCO.