Visual Haystacks (VHs): Benchmark de razonamiento visual multi-imagen

Visión general

Visual Haystacks (VHs) es el primer benchmark centrado en visión de Needle-In-A-Haystack (NIAH) diseñado para evaluar rigurosamente Modelos Multimodales Grandes (LMM) en el procesamiento de información visual en contextos largos. El objetivo es ir más allá del VQA con una imagen y probar recuperación y razonamiento a través de grandes conjuntos de imágenes no correlacionadas. El dataset se centra en identificar presencia de contenido visual específico (p. ej., objetos) en imágenes tomadas del COCO, con aproximadamente 1K pares binarios de preguntas y respuestas incrustados en montones (haystacks) que pueden contener entre 1 y 10K imágenes. La tarea se divide en dos desafíos: Single-Needle (una aguja) y Multi-Needle (varias agujas). El benchmark destaca tres deficiencias principales de los LMM cuando se enfrentan a entradas visuales extensas: dificultad con distracciones visuales, dificultad para razonar entre múltiples imágenes y sensibilidad a la posición de la aguja en la secuencia de entrada (efecto de “perdido en medio”). En respuesta, los autores presentan MIRAGE (Multi-Image Retrieval Augmented Generation), un paradigma de entrenamiento de código abierto en un solo paso que extiende LLaVA para manejar tareas MIQA. MIRAGE aplica compresión de codificaciones, utiliza un recuperador integrado para filtrar imágenes irrelevantes y añade datos de entrenamiento de razonamiento con múltiples imágenes. El resultado es un modelo capaz de manejar 1K o 10K imágenes y que demuestra una alta capacidad de recall y precisión en tareas multi-imagen, superando a varios baselines en muchos escenarios de aguja única. Este trabajo también compara un enfoque de dos etapas (captioning con LLaVA seguido de una respuesta en texto usando Llama3) con modelos visuales conscientes y muestra que la integración de leyendas en contextos largos por parte de LLMs puede ser eficaz, mientras que los LMMs existentes a menudo tienen dificultades para integrar información entre varias imágenes. El benchmark VHs y MIRAGE buscan impulsar avances en recuperación visual robusta y razonamiento sobre grandes colecciones de imágenes. Para más detalles y datos, consulta la fuente: https://bair.berkeley.edu/blog/2024/07/20/visual-haystacks/

Características clave

Razonamiento visual en contexto largo sobre grandes conjuntos de imágenes no correlacionadas (aprox. 1K pares QA; haystacks de 1K a 10K imágenes).
Dos desafíos: Single-Needle (una aguja) y Multi-Needle (2 a 5 agujas).
Tareas de contenido visual basadas en anotaciones COCO (por ejemplo, presencia de un objeto objetivo).
Paradigma MIRAGE de código abierto (Multi-Image Retrieval Augmented Generation) construido sobre LLaVA para MIQA.
Compresión de consultas para reducir tokens de codificación, posibilitando haystacks más grandes dentro de los límites de contexto.
Recuperador integrado entrenado con el flujo de ajuste fino del LLM para filtrar dinámicamente imágenes irrelevantes.
Datos de entrenamiento multi-imagen: aumento con datos de razonamiento multi-imagen y datos sintéticos.
MIRAGE logra rendimiento de punta en la mayoría de tareas de aguja única y demuestra fuertes tasas de recall y precisión en tareas multi-imagen, superando a baselines como GPT-4, Gemini-v1.5 y LWM en muchos escenarios.
El recuperador entrenado en co‑tareas supera a CLIP en este setting MIQA específico, destacando que recuperadores genéricos pueden rendir peor cuando la tarea depende de textos tipo pregunta y relevancia visual.
Paradigma de entrenamiento simple y de código abierto, en un solo paso, diseñado para abordar los principales desafíos de MIQA: distractores, contexto largo y razonamiento entre imágenes.
Identificación de fenómenos como el efecto de posición de la aguja, donde el rendimiento del modelo varía significativamente según la posición de la imagen-aguja en la secuencia (por ejemplo, caídas de hasta ~26,5% para algunos LMM cuando no se coloca justo antes de la pregunta; modelos propietarios muestran caídas de hasta ~28,5% cuando no están al principio).

Casos de uso comunes

Analizar patrones en grandes colecciones de imágenes médicas (p. ej., localizar hallazgos en múltiples imágenes).
Monitorear deforestación o cambios ecológicos mediante imágenes satelitales a lo largo del tiempo.
Mapear cambios urbanos usando datos de navegación autónoma y sensores.
Examinar grandes colecciones de arte en busca de motivos u objetos visuales específicos.
Comprender el comportamiento del consumidor a partir de imágenes de vigilancia minorista a gran escala.

Configuración e instalación

Los detalles de configuración e instalación no están disponibles en la fuente.

# Detalles de configuración no proporcionados en la fuente

Inicio rápido

Nota: la fuente describe un flujo conceptual en lugar de una receta lista para ejecutar. Un esquema de alto nivel basado en el enfoque descrito:

Reunir un haystack: recolectar un gran conjunto de imágenes no correlacionadas (1K–10K) con anotaciones COCO para objetos objetivo.
Preparar la consulta: definir el objeto ancla y el objeto objetivo para la tarea de aguja.
Usar MIRAGE como pipeline de un solo paso: aplicar compresión de codificaciones para reducir tokens, ejecutar el recuperador en línea para filtrar imágenes irrelevantes y aprovechar datos de entrenamiento multi-imagen.
Evaluar: medir tareas de aguja única y multi-aguja, comparando con baselines como captioning+LLM u otros LMMs.

# Flujo conceptual (ilustrativo; no es un script ejecutable)
imágenes = cargar_dataset("COCO", count=1000_a_10000)
qa = crear_qa_binaria(objeto_A, objeto_B)
modelo = MIRAGE()
respuesta = modelo.responder(imágenes, qa)
print(respuesta)

Pros y contras

Pros:
Permite razonamiento en contexto largo sobre miles de imágenes potencialmente no relacionadas.
Codificaciones comprimidas permiten ampliar haystacks más allá de los límites de contexto.
Recuperador integrado reduce datos irrelevantes, mejorando la recuperación.
Datos de entrenamiento multi-imagen mejoran la generalización para tareas MIQA.
MIRAGE ofrece un rendimiento sólido en tareas de aguja única y resultados competitivos en tareas multi-imagen; el recuperador puede superar a CLIP en este setting.
Contras:
La precisión disminuye a medida que los haystacks se hacen más grandes para muchos modelos debido a distracciones visuales.
En escenarios 5+ imágenes y multi-aguja, muchos LMMs presentan rendimientos inferiores frente a una baseline de captioning+LLM en ciertos casos.
Efectos de posición de la aguja pueden influir significativamente en el rendimiento (hasta ~26,5% de variación según modelo y posición).

Alternativas (comparación breve)

VQA tradicional en una sola imagen: limitado a una imagen; no aborda recuperación entre imágenes ni razonamiento en contexto largo.
Benchmarks NIAH basados en texto (Gemini-style): centrados en recuperación o razonamiento textual; VHs extiende esto a datos visuales multi-imagen y razonamiento entre imágenes.
Baseline de captioning (LLaVA + Llama3): usa una leyenda de imágenes seguida de QA en texto; puede superar a algunos LMMs de punta en ciertas tareas multi-imagen, pero puede perder cuando los indicadores visuales son críticos. | Enfoque | Enfoque | Fortalezas | Debilidades |---|---|---|---| | MIRAGE (base VHs) | QA multi-imagen con recuperación | Alto recall/precisión en MIQA; código abierto; supera baselines en muchas tareas de aguja única | Requiere preparación de datos y ajuste MIQA; efectos de posición de la aguja pueden modificar el rendimiento |Captioning + LLM (dos etapas) | QA basado en texto a partir de leyendas | Robusto cuando las leyendas capturan la información clave | Puede subutilizar detalles visuales; matices visuales pueden ser críticos |LMMs avanzados (GPT-4o, Gemini-v1.5) | VQA visual directo sobre varias imágenes | Potencialmente fuertes en ciertos contextos | Resultados bajos en escenarios 5+ imágenes y multi-aguja en este estudio; límites de contexto y de carga |

Licencias o Precios

No se proporcionan detalles de precios o licencias en la fuente. MIRAGE se describe como open-source dentro del contexto del benchmark, pero no se especifican términos de licencia.

Referencias

Visual Haystacks: Are We Ready for Multi-Image Reasoning? Launching VHs: The Visual Haystacks Benchmark!. BAIR Blog. https://bair.berkeley.edu/blog/2024/07/20/visual-haystacks/