Eliciting In-context Retrieval and Reasoning for Long-Context Language Models (ICR2)
Sources: https://machinelearning.apple.com/research/eliciting-in-context, machinelearning.apple.com
Contexto y antecedentes
Los modelos de lenguaje con contexto largo (LCLMs) podrían transformar la Generación Aumentada por Recuperación (RAG) al permitir recuperación y razonamiento dentro del propio contexto extendido del modelo. Esta capacidad se define como In-Context Retrieval and Reasoning (ICR2) Apple ML Research. Sin embargo, los benchmarks existentes como LOFT pueden sobrestimar el rendimiento de los LCLMs porque los contextos de evaluación no presentan desafíos de recuperación suficientemente grandes. Esto motiva un marco de evaluación más realista que presiona a los modelos a lidiar con información confusa recuperada por herramientas potentes. ICR2 se presenta como un benchmark más realista, simulando escenarios prácticos al incluir documentos confusos recuperados por recuperadores fuertes. Apple ML Research El trabajo sitúa su aporte en el panorama: aunque los grandes modelos de lenguaje muestran capacidad de transferencia con pocos ejemplos, el costo de inferencia crece cuadráticamente con la longitud de la secuencia, y el fenómeno de distracción puede degradar el rendimiento cuando el contexto irrelevante domina la prompts. Estos hallazgos motivan mejoras en el razonamiento y la recuperación en LCLMs con ICR2. Apple ML Research Este estudio explora direcciones prácticas para avanzar en el razonamiento en contextos largos y demuestra que simplemente alargar el contexto no basta: la calidad de la recuperación, su integración en la generación y las estrategias de decodificación son críticas para realizar beneficios reales con contextos extensos. Apple ML Research
Qué hay de nuevo
La contribución central es triple:
- Introducción de ICR2 como benchmark diseñado para una evaluación y entrenamiento más realistas de LCLMs, con documentos confusos recuperados por recuperadores potentes para simular escenarios difíciles. Apple ML Research
- Un conjunto de métodos para mejorar el rendimiento en ICR2:
- fine-tuning retrieve-then-generate, que alinea recuperación y generación;
- modelado explícito de una cabeza de recuperación entrenada conjuntamente con la cabeza de generación; y
- decoding con procesamiento de atención de recuperación, que utiliza las cabezas de atención para filtrar y refinar contextos largos durante la decodificación. Apple ML Research
- Evaluación extensa en cuatro LCLMs bien conocidos en LOFT e ICR2; el mejor enfoque aplicado a Mistral-7B muestra mejoras de +17 y +15 en LOFT, y +13 y +2 en ICR2, frente a RAG zero-shot y modelos supervisados in-domain, respectivamente. Los resultados también indican que el enfoque puede superar a GPT-4 en la mayoría de las tareas dadas las configuraciones reportadas, a pesar de un tamaño de modelo menor. Apple ML Research El trabajo también detalla el origen de los resultados, incluyendo el marco de evaluación y los desafíos de razonamiento con contexto largo, incluyendo costos computacionales y el fenómeno de distracción. Apple ML Research
Por qué es importante (impacto para desarrolladores/empresas)
Para desarrolladores y empresas, el trabajo señala vías prácticas para simplificar pipelines de RAG. Si los modelos pueden recuperar y razonar eficazmente dentro de su contexto extendido, podría ser posible reducir la necesidad de pipelines de recuperación externos durante la inferencia o simplificar flujos de trabajo en producción. El razonamiento y la recuperación en contexto pueden permitir el procesamiento de grandes bases de conocimiento en una sola pasada, potencialmente reduciendo latencia y facilitando el despliegue. Los resultados muestran ganancias significativas incluso en modelos relativamente compactos (p. ej., Mistral-7B), destacando ventajas de eficiencia para despliegues con restricciones de recursos. Apple ML Research Desde la perspectiva de la empresa, la capacidad de aplicar fine-tuning retrieve-then-generate y una modelación de cabeza de recuperación puede acortar el tiempo de despliegue para bases de conocimiento específicas del dominio. La decodificación con atención de recuperación ofrece un mecanismo para filtrar contextos largos, lo que puede traducirse en salidas más confiables en escenarios de producción donde el ruido del prompt y la cantidad de documentos son comunes. Los resultados demuestran ganancias incluso con modelos más pequeños, subrayando beneficios de eficiencia para implantar estos enfoques en entornos operativos. Apple ML Research
Detalles técnicos o Implementación
- In-Context Retrieval and Reasoning (ICR2): marco en el que los modelos de lenguaje con contexto largo realizan recuperación y razonamiento dentro de su espacio de entrada extendido, en lugar de depender únicamente de módulos de recuperación externos. El concepto se presenta como ICR2. Apple ML Research
- Benchmark ICR2: diseñado para simular desafíos reales de recuperación, incluyendo documentos confusos para proporcionar una evaluación más auténtica de las capacidades de LCLMs. Apple ML Research
- Métodos para mejorar el rendimiento en ICR2:
- fine-tuning retrieve-then-generate: alinea recuperación con objetivos de generación;
- cabeza de recuperación entrenada conjuntamente con la cabeza de generación;
- decoding con probing de atención: utiliza las cabezas de atención para filtrar y refinar contextos largos durante la decodificación. Apple ML Research
- Resultados de benchmarking (selección): se evaluaron cuatro LCLMs conocidos en LOFT e ICR2; el mejor enfoque con Mistral-7B demuestra mejoras de +17 y +15 en LOFT, y +13 y +2 en ICR2, frente a RAG zero-shot y a modelos supervisados in-domain, respectivamente. También se discute la posibilidad de superar a GPT-4 en varias tareas dentro de las configuraciones reportadas, a pesar de un tamaño de modelo menor. Apple ML Research
- El trabajo subraya que ampliar el contexto sin considerar estas estrategias no garantiza mejoras; la calidad de la recuperación, su integración en la generación y las técnicas de decodificación son claves para obtener beneficios reales en contextos largos. Apple ML Research
Conclusiones clave
- ICR2 formaliza la recuperación y el razonamiento en contexto como una capacidad central de los LCLMs y ofrece un benchmark para evaluarlos bajo desafíos realistas de recuperación. Apple ML Research
- Tres enfoques prácticos para mejorar el rendimiento en contextos largos: fine-tuning retrieve-then-generate, modelar conjuntamente cabeza de recuperación y generación, y decoding con probing de atención sobre la recuperación. Apple ML Research
- Los resultados en Mistral-7B muestran mejoras relevantes frente a RAG zero-shot y baselines supervisados, con desempeño competitivo frente a GPT-4 en muchas tareas según las configuraciones reportadas. Apple ML Research
- Al enfatizar evaluaciones más realistas, ICR2 orienta el desarrollo hacia razonamiento en contexto largo eficiente, robusto y apto para la producción. Apple ML Research
FAQ
-
¿Qué es ICR2, en términos simples?
ICR2 es In-Context Retrieval and Reasoning, un marco y benchmark para evaluar cómo los LCLMs recuperan y razonan sobre información dentro de contextos extendidos. [Apple ML Research](https://machinelearning.apple.com/research/eliciting-in-context)
-
¿Cómo funciona el decoding con probing de atención sobre la recuperación?
Utiliza cabezas de atención para filtrar y refinar qué partes del contexto largo se usan durante la decodificación, reduciendo la distracción de documentos irrelevantes. [Apple ML Research](https://machinelearning.apple.com/research/eliciting-in-context)
-
¿En qué se diferencia LOFT de ICR2?
LOFT es un benchmark anterior que puede no presentar desafíos de recuperación suficientes; ICR2 añade documentos confusos para crear un escenario de evaluación más realista. [Apple ML Research](https://machinelearning.apple.com/research/eliciting-in-context)
-
¿Qué implicaciones prácticas tiene para el despliegue?
Las técnicas propuestas pueden simplificar pipelines de RAG, permitir procesar grandes bases de conocimiento en una pasada y mejorar la fiabilidad de las salidas en tareas de contexto largo. [Apple ML Research](https://machinelearning.apple.com/research/eliciting-in-context)
-
¿Los resultados requieren un modelo muy grande?
Los resultados incluyen beneficios significativos incluso con modelos compactos como Mistral-7B, y en algunos escenarios pueden superar al GPT-4, destacando la eficiencia cuando se combinan las técnicas propuestas. [Apple ML Research](https://machinelearning.apple.com/research/eliciting-in-context)
Referencias
- Eliciting In-context Retrieval and Reasoning for Long-Context Language Models — https://machinelearning.apple.com/research/eliciting-in-context
More news
Shadow Leak muestra cómo los agentes de ChatGPT pueden exfiltrar datos de Gmail mediante inyección de prompts
Investigadores de seguridad demostraron un ataque de inyección de prompts llamado Shadow Leak, que utilizó Deep Research de ChatGPT para exfiltrar datos de una bandeja de Gmail. OpenAI parcheó la falla; el caso subraya los riesgos de la IA con agentes.
Detección y reducción de scheming en modelos de IA: avances, métodos e implicaciones
OpenAI y Apollo Research evaluaron el desalineamiento oculto en modelos de frontera, observaron comportamientos de scheming y probaron un método de alineamiento deliberativo que redujo las acciones encubiertas unas 30x, con limitaciones y trabajos en curso.
Investigación de Autodesk trae Warp speed a CFD en NVIDIA GH200
Autodesk Research, Warp de NVIDIA y GH200 muestran CFD nativo en Python con XLB: ~8x de velocidad y escala hasta ~50 mil millones de celdas.
Reduciendo la latencia en frío para la inferencia de LLM con NVIDIA Run:ai Model Streamer
Análisis detallado de cómo NVIDIA Run:ai Model Streamer disminuye los tiempos de arranque en frío al transmitir pesos a la memoria GPU, con benchmarks en GP3, IO2 y S3.
Agilizar el acceso a cambios de contenido ISO-rating con Verisk Rating Insights y Amazon Bedrock
Verisk Rating Insights, impulsado por Amazon Bedrock, LLM y RAG, ofrece una interfaz conversacional para acceder a cambios ERC ISO, reduciendo descargas manuales y acelerando información precisa.
Cómo msg mejoró la transformación de la fuerza laboral de RR. HH. con Amazon Bedrock y msg.ProfileMap
Este artículo explica cómo msg automatizó la armonización de datos para msg.ProfileMap usando Amazon Bedrock para impulsar flujos de enriquecimiento impulsados por LLM, aumentando la precisión de la coincidencia de conceptos de RR. HH., reduciendo la carga de trabajo manual y alineándose con la UE A