Mamba Explicado: Modelos de Espacio de Estado como Alternativa de Largo Alcance a Transformers
Sources: https://thegradient.pub/mamba-explained, thegradient.pub
TL;DR
- Mamba es un modelo de secuencias basado en un Modelo de Espacio de Estado (SSM) diseñado como una alternativa rápida y de largo alcance a los Transformers.
- Reemplaza el cuello de botella cuadrático de la atención con un SSM para la comunicación, logrando escalado lineal con la longitud del contexto.
- La approach promete inferencia rápida (hasta 5x más rápido que Transformer) y soporta contextos de hasta millones de tokens, con rendimiento competitivo en tareas de lenguaje.
- La computación se basa en proyecciones lineales, no linealidades y convoluciones locales, mientras el SSM gestiona la comunicación entre tokens.
- Mamba apunta a obtener rendimiento de vanguardia en modalidades como lenguaje, audio y genómica.
Contexto y antecedentes
Los Transformers han dominado los avances recientes en IA, en gran parte gracias a su mecanismo de atención que permite que los tokens miren, en principio, todos los tokens anteriores. Sin embargo, este enfoque de largo alcance genera un cuello de botella cuadrático durante el entrenamiento (complejidad O(n^2)) y un costo lineal por token durante la generación (O(n) a medida que el contexto crece). El caché KV, utilizado para almacenar información específica de cada token, también crece con la longitud del contexto y puede provocar errores de memoria (OOM) en GPUs. Técnicas como la Atención en Ventana Deslizante o optimizaciones CUDA (p. ej., FlashAttention) pueden mitigar estos problemas, pero no resuelven por completo el desafío de secuencias extremadamente largas. En este marco, Mamba propone una base diferente para modelar secuencias. En lugar de mejorar la atención, sustituye el componente de Atención por un Modelo de Espacio de Estado (SSM) para la comunicación, manteniendo el camino de Cálculo con proyecciones MLP y convoluciones locales. En otras palabras, Mamba es como un Transformer formado por bloques Mamba apilados, donde la comunicación entre tokens está regida por un SSM en lugar de atención por producto escalar. El objetivo es ampliar la frontera de efectividad y eficiencia, especialmente para contextos muy largos. La visión de Mamba se alinea con una clase de modelos alternativos basados en SSM que pueden modelar cómo evoluciona la información a lo largo del tiempo. Los autores sostienen que, con la discretización y parametrización adecuadas, los SSM pueden lograr inferencia rápida y escalado lineal con la longitud del contexto, manteniendo un rendimiento sólido en datos reales que incluyen lenguaje, audio y genómica. La explicación también enfatiza una formulación conceptual de estado, entrada y salida para describir cómo la dinámica del sistema determina las predicciones, desde una perspectiva de sistemas dinámicos y teoría de control. Para un tratamiento técnico más profundo, consulta la explicación original de Mamba: Mamba Explained.
Qué hay de nuevo
La innovación central de Mamba es reemplazar el camino de comunicación basado en atención por una aproximación de Modelo de Espacio de Estado (SSM) para la comunicación, manteniendo el camino de Cálculo a través de proyecciones lineales, no linealidades y convoluciones locales. Los elementos clave incluyen:
- Una formulación en tiempo continuo para la evolución del estado: h’(t) = A h(t) + B x(t) y la salida se da por y(t) = C h(t) + D x(t).
- Discretización al dominio discreto mediante Zero-Order Hold (ZOH): h_
{t+1}≈ (I + Δ A) h_t + (Δ B) x_t, donde Δ es el tiempo de permanencia. - Un sustituto directo de la atención en el bloque Mamba, conservando el camino de Cálculo con proyecciones, no linealidades y convoluciones locales.
- Un marco que habilita contextos largos, con afirmaciones de escalado lineal y viabilidad para contextos de millones de tokens.
- Una interpretación compacta de las matrices A, B, C, D para describir la interacción entre estado y entradas y cómo la información se propaga. En términos de rendimiento, los autores afirman inferencia rápida y escalado lineal con la longitud de la secuencia, y reportan que Mamba logra rendimiento de punta en diversas modalidades (lenguaje, audio y genómica). En modelado de lenguaje, se afirma que Mamba-3B supera a Transformers del mismo tamaño y iguala a Transformers más grandes en preentrenamiento y evaluación downstream. Estos resultados posicionan a Mamba como una opción competitiva para el backbone de largo alcance junto a Transformers, con posibles ventajas de eficiencia a gran escala. Una tabla compacta ilustra el contraste entre el enfoque Transformer tradicional y el enfoque Mamba. (La tabla resume diferencias conceptuales; consulte la fuente para detalles técnicos completos.) | Aspecto | Transformer | Mamba |---|---|---| | Mecanismo de comunicación central | Atención por producto interno con caché KV | Modelo de Espacio de Estado (SSM) para comunicación |Complejidad temporal/espacial (contexto n) | Entrenamiento: O(n^2); generación: O(n) por token; caché KV O(n) memoria | Escalamiento lineal con la longitud de la secuencia; la dinámica de estado gobierna la comunicación |Viabilidad de largo contexto | Desafiante a longitudes muy grandes | Viabilidad anunciada hasta millones de tokens |Velocidad de inferencia | Velocidad de referencia de Transformer | Hasta 5x más rápido que Transformer (según las afirmaciones) |
Por qué importa (impacto para desarrolladores/empresas)
Si las promesas de Mamba se cumplen, desarrolladores y empresas podrían beneficiarse de varias mejoras prácticas. Reemplazar el cuello de botella cuadrático de la atención por una comunicación lineal podría reducir la presión de memoria y la latencia de inferencia en tareas con contextos largos, posiblemente mitigando riesgos de OOM al procesar secuencias extensas. La dinámica de estado explícita ofrece una forma diferente de memoria eficiente, intercambiando cierta capacidad de recuerdo por una representación compacta del pasado. Contextos muy largos, potencialmente de millones de tokens, abren oportunidades para aplicaciones que requieren contexto sostenido sin la degradación típica de eficiencia asociada a las atenciones tradicionales. Las afirmaciones sobre rendimiento comparable o superior en ciertas escalas —como Mamba-3B superando Transformers del mismo tamaño y equiparando a Transformers mayores— subrayan el potencial de backbones basados en SSM para tareas reales. Como sucede con cualquier backbone nuevo, la validación empírica ampliada, la diversidad de conjuntos de datos y consideraciones de implementación determinarán la adopción general. La explicación presenta a Mamba como una ruta hacia una frontera de eficiencia y rendimiento más favorable, especialmente cuando el contexto es largo.
Detalles técnicos o Implementación
En el núcleo de Mamba está una formulación de espacio de estado para la comunicación, junto a un camino de Cálculo basado en redes neuronales estándar. Los elementos clave y las fórmulas son:
- Dinámica en tiempo continuo: h’(t) = A h(t) + B x(t)
- Mapeo de salida: y(t) = C h(t) + D x(t)
- Discretización (Zero-Order Hold): h_
{t+1}≈ (I + Δ A) h_t + (Δ B) x_t - Interpretación del paso: Δ es el tiempo de permanencia, controlando cuánto del pasado influye en el estado siguiente. Estas ecuaciones sitúan a Mamba como un sustituto directo del componente de atención en un bloque Transformer, manteniendo el camino de Cálculo con proyecciones lineales, no linealidades y convoluciones locales. El estado h se considera una representación comprimida del pasado; la dinámica del sistema codifica cómo evolucionan las entradas y el contexto para predecir la próxima salida y. La explicación también coloca a SSMs en el marco más amplio de la eficiencia de los modelos: los Transformers ofrecen un gran poder de recuerdo, pero con costos de eficiencia que crecen con el contexto; las RNNs tradicionales son eficientes pero limitadas en capacidad de retener información. Mamba se posiciona como un punto medio con memoria estructurada y rendimiento competitivo en tareas reales. El camino de Cálculo permanece alineado con proyecciones lineales, no linealidades y convoluciones locales para facilitar la integración en arquitecturas existentes. Para profundizar, consulte la explicación original: Mamba Explained.
Conclusiones
- Mamba propone una alternativa a la atención mediante un Modelo de Espacio de Estado para la comunicación entre tokens, permitiendo contextos largos con escalado lineal.
- El camino de Cálculo permanece cercano a los estándares (proyecciones lineales, no linealidades, convoluciones locales).
- La discretización con ZOH introduce Δ como parámetro clave para gestionar la memoria y la influencia del pasado.
- Las afirmaciones apuntan a inferencia rápida y contextos de millones de tokens, con rendimientos sólidos en lenguaje a 3B.
- Si se valida ampliamente, Mamba podría convertirse en una columna vertebral para IA de largo alcance en lenguaje, audio y genómica.
Preguntas frecuentes (FAQ)
- Pregunta: ¿Qué es Mamba, en términos simples? Respuesta: Es un modelo de secuencias que usa un Modelo de Espacio de Estado para la comunicación entre tokens, en lugar de la atención basada en producto escalar de Transformer, manteniendo la ruta de Cálculo tradicional.
- Pregunta: ¿Cómo logra Mamba contextos largos? Respuesta: Modelando la comunicación entre tokens con una dinámica de espacio de estado en tiempo continuo y discretizándola con Zero-Order Hold, lo que permite escalado lineal y contextos de millones de tokens.
- Pregunta: ¿Cómo se compara Mamba con Transformer? Respuesta: La explicación afirma desempeño y escalado similares, con Mamba-3B superando Transformers del mismo tamaño y equiparando Transformers mayores en preentrenamiento y evaluación downstream.
- Pregunta: ¿Qué sustento técnico tiene Mamba? Respuesta: El camino de comunicación usa un Modelo de Espacio de Estado (A h + B x, y = C h + D x) discretizado por ZOH, mientras el camino de Cálculo usa proyecciones lineales, no linealidades y convoluciones locales.
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Modelos Falcon-H1 de TII ya disponibles en Amazon Bedrock Marketplace y SageMaker JumpStart
AWS anuncia los modelos Falcon-H1 de TII (0,5B–34B) en Amazon Bedrock Marketplace y SageMaker JumpStart, con soporte multilingüe, arquitectura híbrida y guía de implementación.
NVIDIA Jetson Thor: la plataforma definitiva para la IA física
Jetson Thor ofrece IA en el borde a escala robótica, con GPU Blackwell, MIG, FP4/FP8 y 128 GB de memoria para plataformas robóticas de próxima generación.
Nuevo Nemotron Nano 2: modelo de razonamiento abierto líder con 6x de rendimiento
El Nemotron Nano 2 9B es un modelo de razonamiento abierto para precisión empresarial y eficiencia en el edge, que ofrece 6x de rendimiento y un presupuesto de pensamiento configurable.
Identifica a los hablantes en reuniones en tiempo real con NVIDIA Streaming Sortformer
NVIDIA Streaming Sortformer es un modelo de diarización de código abierto y de producción, diseñado para escenarios multihablantes en tiempo real, con integración a NeMo y Riva.
Entrega de 1,5M TPS de Inferencia en NVIDIA GB200 NVL72: Modelos gpt-oss de OpenAI Acelerados de la Nube al Edge
NVIDIA y OpenAI optimizan gpt-oss-20b y gpt-oss-120b para inferencia FP4 acelerada en Blackwell, alcanzando hasta 1.5M tokens por segundo en GB200 NVL72 y habilitando despliegue de cloud a edge.