Modelando Imágenes Extremadamente Grandes con xT

TL;DR

xT es un marco para modelar imágenes extremadamente grandes de extremo a extremo en GPUs modernas, usando tokenización anidada y dos codificadores coordinados: codificadores de región para detalle local y codificadores de contexto para integración global.
Aborda desafíos de memoria y escala evitando muestreo hacia abajo o recorte, procesando imágenes por partes con contexto jerárquico.
La arquitectura admite codificadores de región a partir de backbones de vanguardia (p. ej., Swin, Hiera, ConvNeXt) y codificadores de contexto que manejan dependencias a largo alcance (p. ej., Transformer-XL y variantes como Hyper y Mamba).
En experiments, xT maneja imágenes de hasta 29,000 × 25,000 píxeles en GPUs A100 de 40 GB, mientras que baselines comparables agotan la memoria a aproximadamente 2,800 × 2,800 píxeles. Esto permite mayor precisión en tareas downstream con menos parámetros y menor memoria por región.
El enfoque se demuestra en tareas diversas (iNaturalist 2018, xView3-SAR, MS-COCO) y busca abrir aplicaciones en monitoreo climático, salud y más. Para detalles completos, la página del proyecto ofrece código y pesos, y la entrada del blog describe las ideas clave detrás de xT. fuente

Contexto y antecedentes

Las imágenes de gran tamaño ya no son raras. Las cámaras que llevamos y las que orbitan nuestro planeta capturan datos tan grandes y detallados que los modelos y el hardware actuales llegan a sus límites, principalmente por el crecimiento de memoria que es aproximadamente cuadrático respecto al tamaño de la imagen. Una estrategia común, pero subóptima, es reducir la resolución o recortar partes de la imagen, lo que conlleva la pérdida de información y contexto crítico. El desafío central es equilibrar la necesidad de ver tanto el bosque como los árboles. Si la imagen se procesa entera, la memoria se dispara; si se procesa solo una región, se pierden relaciones a larga distancia importantes. xT propone tokenización anidada: dividir la imagen en regiones, cada una puede subdividirse, para luego aplicar encoders a cada región y, finalmente, combinar todo con un encoder de contexto para obtener una visión global coherente. fuente La idea de tokenización anidada crea una jerarquía de tokens en varias escalas, permitiendo modelar tanto detalles locales como la estructura global. Implementar una jerarquía facilita manejar imágenes de gran tamaño sin sacrificar la fidelidad, al tiempo que se conserva una visión global. fuente

Lo nuevo

xT presenta una arquitectura basada en tres conceptos: tokenización anidada, codificadores de región y codificadores de contexto. Primero, la tokenización anidada divide la imagen en regiones que pueden subdividirse, y luego se parchean para ser procesadas por el region encoder. Cada region encoder funciona como un experto local, generando representaciones detalladas. Dado que cada región se procesa de forma aislada, no hay intercambio de información a nivel de imagen durante el procesamiento regional. El region encoder puede ser cualquier backbone de visión de vanguardia (Swin, Hiera, ConvNeXt). Luego, el codificador de contexto toma las representaciones de las regiones y las une para asegurar que las ideas de una región se consideren en el contexto de las demás. Generalmente, el codificador de contexto es un modelo de secuencia larga. Se experimenta con Transformer-XL (y una variante llamada Hyper) y Mamba, aunque también podrían usarse Longformer y otros avances. El truco de xT es la forma en que estos componentes se combinan para mantener la fidelidad de los detalles locales al tiempo que se integra el contexto global, haciendo viable el procesamiento end-to-end de imágenes masivas en GPUs modernas. fuente Se evalúa xT en tareas desafiantes que abarcan desde baselines consolidados hasta tareas de grandes imágenes: iNaturalist 2018 para clasificación de especies de gran detalle, xView3-SAR para segmentación dependiente del contexto y MS-COCO para detección. En todos los casos, las configuraciones basadas en xT logran mayor precisión con menos parámetros y menor memoria por región que los baselines. fuente Una capacidad destacada es la de modelar imágenes tan grandes como 29 000 × 25 000 píxeles en GPUs 40 GB A100, mientras que baselines comparables llegan a agotar la memoria a 2 800 × 2 800 píxeles. Esta diferencia resalta el potencial del enfoque de tokenización anidada y la separación entre procesamiento regional e integración del contexto para datos de alta resolución. El objetivo es abrir la puerta a modelos que entiendan la historia completa de una imagen sin comprometer la claridad o el alcance. fuente

Por qué importa (impacto para desarrolladores/empresas)

El impacto práctico de xT se ve en dominios donde el tamaño y el detalle de las imágenes son críticos. En monitoreo ambiental, es posible observar cambios a gran escala mientras se examinan áreas específicas para entender efectos locales. En salud, los clínicos podrían detectar patrones sutiles en imágenes médicas de alta resolución sin perder la visión global. Para desarrolladores, xT ofrece un marco para entrenar e inferir con imágenes muy grandes en hardware moderno, manteniendo la memoria bajo control. fuente Desde la perspectiva de la ingeniería, la combinación de codificadores de región con modelos de contexto de secuencia larga puede simplificar flujos de trabajo y facilitar la experimentación con diferentes backbones regionales y modelos de contexto, así como ajustar cómo se generan y conectan los tokens. En resumen, con xT se puede manejar imágenes muy grandes sin comprometer memoria ni rendimiento, abriendo paso a conjuntos de datos más grandes y aplicaciones más complejas. fuente

Detalles técnicos o Implementación

En el corazón de xT está la tokenización anidada, que divide la imagen en regiones y sub-regiones, y luego parchea estas regiones antes de enviarlas al region encoder. Cada region encoder funciona como un experto local, produciendo representaciones detalladas para cada región. Dado que cada región se procesa aisladamente, no hay intercambio inmediato de información entre regiones a nivel global durante el procesamiento regional. El encoder de contexto toma las representaciones regionales y las integra para formar una comprensión coherente de la imagen, incorporando señales de largo alcance. En las pruebas, Transformer-XL y variantes como Hyper, y Mamba se utilizan como modelos de contexto. El sistema está diseñado para ejecutarse de forma end-to-end en GPUs modernas, lo que facilita el entrenamiento y la inferencia sobre imágenes de gran tamaño sin reducir la resolución. Para los encodeurs de región, xT admite Swin, Hiera y ConvNeXt; para el contexto, se exploran modelos de secuencia larga como Transformer-XL, Hyper y Mamba. El objetivo es conservar los detalles locales mientras se integra el contexto global, permitiendo modelar imágenes de gran escala con una memoria razonable. fuente

Conclusiones clave

La tokenización anidada permite descomponer imágenes extremadamente grandes en regiones y sub-regiones de forma escalable.
Los encodeurs de región actúan como expertos locales, mientras que los encodeurs de contexto integran información entre regiones para mantener la coherencia global.
Diversas opciones de backbones pueden servir como encodeurs de región (Swin, Hiera, ConvNeXt) y modelos de contexto de secuencia larga (Transformer-XL, Hyper, Mamba) ofrecen integración de contexto robusta.
Los resultados muestran mayor precisión con menos parámetros y menor memoria por región frente a baselines, haciendo viable el uso en imágenes de alta resolución.
La capacidad de modelar imágenes hasta 29 000 × 25 000 en GPUs 40 GB A100 demuestra el potencial para aplicaciones avanzadas en datos de alta resolución. fuente