Skip to content
Seq vs Seq: la suite Ettin de codificadores y decodificadores emparejados
Source: huggingface.co

Seq vs Seq: la suite Ettin de codificadores y decodificadores emparejados

Sources: https://huggingface.co/blog/ettin, Hugging Face Blog

TL;DR

  • Ettin presenta los primeros modelos de vanguardia emparejados entre codificador (encoder) y decodificador (decoder), entrenados con datos idénticos, formas de modelo idénticas y recetas de entrenamiento idénticas fuente.
  • La suite abarca seis escalas, desde 17M hasta 1B parámetros para codificadores y decodificadores fuente.
  • El entrenamiento sigue una receta de tres fases: preentrenamiento en 1,7T de tokens con contextos cortos, extensión de contexto a 8K tokens en 250B tokens, y una fase de decaimiento con 100B tokens de fuentes premium fuente.
  • Todos los datos de entrenamiento son públicos y reproducibles, lo que permite comparaciones equitativas; los codificadores destacan en clasificación y recuperación, mientras que los decodificadores lideran en generación fuente.
  • En benchmarks, los modelos Ettin superan o igualan a baselines establecidos como Llama 3.2 1B y SmolLM2, con mejoras destacadas en tareas de alto contenido de conocimiento como SciQ fuente.

Contexto y antecedentes

La comunidad de LLMs ha convergido principalmente en modelos solo de decodificador para generación, mientras que los modelos solo de codificador siguen siendo clave para tareas de producción como clasificación, recuperación y embeddings. Los codificadores suelen ser más rápidos y consumen menos memoria para tareas discriminativas, pero históricamente han quedado rezagados en capacidades generativas frente a los decodificadores. Ettin propone una comparación justa entre ambas arquitecturas entrenándolas con los mismos datos, las mismas recetas y las mismas dimensiones de modelo; las únicas diferencias son los patrones de atención y los objetivos de entrenamiento. La iniciativa toma su nombre de un gigante de dos cabezas de la mitología nórdica, reflejando su enfoque de arquitecturas emparejadas. Todos los datos utilizados en Ettin son públicos y reproducibles, reforzando el compromiso con la ciencia abierta y la reproducibilidad. Puedes continuar entrenando estos modelos con nuevos datos o proponer una nueva receta para mejorar aún más fuente.

Novedades

Ettin presenta una suite coherente de seis modelos para cada arquitectura (encoder y decoder), que abarcan de 17M a 1B de parámetros. Se aplica la misma base de datos, las mismas formas de modelo y la misma receta de entrenamiento a ambas familias para permitir comparaciones justas entre patrones de atención y objetivos. Específicamente:

  • Se exploran dos objetivos de entrenamiento en un marco controlado: MLM para codificadores y CLM para decodificadores. La misma base de datos y la misma receta se aplican a ambos, permitiendo un análisis justo de arquitectura vs objetivo.
  • El régimen de datos es público y reproducible: los datos de entrenamiento son públicos, permitiendo que investigadores reproduzcan resultados o amplíen el entrenamiento con nuevos datos.
  • Ettin sigue un enfoque de tres fases, heredado de ModernBERT, con extensión de contexto hasta 8K tokens usando datos filtrados de alta calidad. La fase 3 utiliza 100B tokens de fuentes premium y reduce gradualmente la tasa de aprendizaje fuente.
  • Los modelos encoder y decoder muestran rendimientos de punta para modelos abiertos en diversas tareas y escalas. En varias evaluaciones, los codificadores Ettin superan a ModernBERT, mientras que los decodificadores Ettin superan o igualan a baselines establecidos como Llama 3.2 y SmolLM2, con ganancias destacadas en tareas de conocimiento como SciQ fuente.
  • Los resultados resaltan ventajas arquitecturales fundamentales que persisten cuando se controlan datos, recetas y escalas: los codificadores destacan en clasificación y recuperación, mientras que los decodificadores conservan una ventaja en generación a medida que la escala aumenta. Un experimento adicional invirtió el objetivo después de entrenar para estudiar cómo las decisiones de objetivo influyen en el aprendizaje, mostrando que la arquitectura importa más allá del objetivo mismo fuente.
  • Para investigadores y profesionales, Ettin ofrece boilerplates prácticos y un camino claro para reproducir o ampliar el trabajo. Los autores invitan a probar los modelos y considerar flujos de trabajo de clasificación, recuperación y generación usando codificadores o decodificadores fuente.

Por qué es importante (impacto para desarrolladores/empresas)

La contribución central de Ettin es permitir comparaciones justas entre arquitecturas de codificador y decodificador bajo condiciones idénticas de datos y recetas. Esto facilita a los equipos elegir la backbone adecuada para una aplicación, ya sea un modelo discriminativo rápido para dispositivos o un sistema generativo más capaz para tareas de contexto largo. El carácter abierto de los datos y las recetas reduce la barrera de entrada y facilita la reproducción y extensión por equipos que desean adaptar modelos de alto rendimiento a sus propios conjuntos de datos. En la práctica, las empresas pueden evaluar: (1) qué arquitectura funciona mejor para clasificación y recuperación frente a generación, (2) cómo la escala afecta el rendimiento en un régimen de datos común, y (3) si cambiar el objetivo influye en el comportamiento y sesgos en escenarios de despliegue fuente.

Detalles técnicos o Implementación

La suite Ettin incluye seis escalas de modelo para cada arquitectura (encoder y decoder), desde 17M hasta 1B de parámetros. A ambas familias se aplica la misma base de datos, las mismas formas de modelo y la misma receta de entrenamiento para asegurar comparaciones justas entre patrones de atención y objetivos. La estrategia de entrenamiento en tres fases es central: 1) preentrenamiento con 1,7T tokens y contextos cortos (1024) para sentar bases, 2) extensión de contexto a 8K tokens con datos filtrados de alta calidad, 3) fase de decaimiento con 100B tokens de fuentes premium y reducción progresiva de la tasa de aprendizaje. Un experimento clave consistió en continuar el entrenamiento durante 50B tokens con el objetivo opuesto (MLM para codificadores, CLM para decodificadores) para estudiar cómo el objetivo influye en el aprendizaje bajo el mismo marco de arquitectura y datos. El carácter abierto de Ettin facilita la exploración de ventajas arquitecturales y dinámicas de sesgos con entradas transparentes fuente.

Conclusiones clave

  • Ettin establece un marco justo para comparar arquitecturas encodeur y decodeur, usando datos, formas y recetas idénticos.
  • Los codificadores sobresalen en clasificación y recuperación, incluso a tamaños modestos, mientras que los decodificadores muestran ventajas en generación, especialmente a mayor escala.
  • La suite de seis escalas (17M–1B) para ambas familias ofrece opciones de implementación variadas, desde modelos ligeros para dispositivos hasta sistemas más potentes.
  • Todo el conjunto de datos de Ettin es público y reproducible, lo que facilita la réplica y la extensión por la comunidad.
  • Un experimento que invierte el objetivo tras el entrenamiento inicial demuestra que la arquitectura importa más allá del objetivo, con impactos mensurables en el aprendizaje y el comportamiento, incluso en métricas de sesgo.
  • Ettin proporciona boilerplates prácticos y un camino claro para probar modelos abiertos en tareas de clasificación, recuperación y generación fuente.

FAQ

  • ¿Qué es Ettin?

    Ettin se describe como la primera suite de modelos de punta emparejados entre encoder y decoder, entrenados con datos idénticos, formas y recetas, con diferencias principalmente en patrones de atención y objetivos de entrenamiento [fuente](https://huggingface.co/blog/ettin).

  • ¿Cuántas escalas existen y cuál es el rango?

    Seis escalas para encodeurs y decodificadores, desde 17M hasta 1B de parámetros [fuente](https://huggingface.co/blog/ettin).

  • ¿Qué régimen de datos se utiliza?

    Un enfoque de tres fases con 1,7T tokens para preentrenamiento, 250B tokens para extender el contexto a 8K, y 100B tokens de fuentes premium para la fase de decaimiento; los datos son públicos y reproducibles [fuente](https://huggingface.co/blog/ettin).

  • ¿Cómo se comparan los resultados con baselines conocidos?

    Los codificadores Ettin superan al ModernBERT y los decodificadores Ettin superan o igualan baselines como Llama 3.2 y SmolLM2, con mejoras notables en tareas de conocimiento como SciQ [fuente](https://huggingface.co/blog/ettin).

  • ¿Puedo reproducir o probar estos modelos yo mismo?

    Sí. También hay boilerplates y todos los datos son públicos para facilitar la reproducción o extensión [fuente](https://huggingface.co/blog/ettin).

Referencias

More news