SlowFast-LLaVA-1.5: LLMs de vídeo eficientes en tokens para comprensión de larga duración
Sources: https://machinelearning.apple.com/research/slowfast-llava, Apple ML Research
TL;DR
- SlowFast-LLaVA-1.5 (SF-LLaVA-1.5) es una familia de grandes modelos de lenguaje para vídeo con eficiencia de tokens, enfocada en la comprensión de vídeos de larga duración. Apple ML Research
- Integra el mecanismo SlowFast de dos flujos en un flujo de entrenamiento simplificado y realiza un entrenamiento conjunto de vídeo e imagen sobre un conjunto de datos públicos únicamente. Apple ML Research
- El diseño se centra en escalas eficientes (1B y 3B) y demuestra un rendimiento robusto entre 1B y 7B, obteniendo resultados de punta en benchmarks de larga duración. Apple ML Research
- Además de SF-LLaVA-1.5, la publicación menciona investigaciones relacionadas sobre streaming y multimodalidad, incluido StreamBridge para transformar Video-LLMs fuera de línea en modelos de streaming y esfuerzos de generación de QA para vídeo egocéntrico. Apple ML Research
Contexto y antecedentes
La familia SlowFast-LLaVA-1.5 se presenta como un enfoque eficiente para la comprensión de vídeo de larga duración. Basándose en la arquitectura SlowFast de dos flujos, los autores integran un flujo de entrenamiento simplificado que optimiza de manera conjunta entradas de vídeo e imagen a partir de un conjunto de datos públicos cuidadosamente seleccionado. Esto se alinea con un interés más amplio de Apple ML Research en modelos multimodales eficientes y escalables que pueden operar en dispositivos con recursos limitados. Los resultados muestran un rendimiento sólido en una variedad de tareas y tamaños de modelo, de 1B a 7B parámetros, incluyendo resultados de punta en benchmarks de larga duración como LongVideoBench y MLVU. El trabajo enfatiza una filosofía de diseño: lograr alta precisión con costos de cómputo y memoria razonables manteniendo accesibilidad mediante datos públicos. La página también hace referencia a trabajos relacionados sobre streaming y comprensión multimodal de vídeo egocéntrico, reflejando una agenda más amplia hacia la comprensión en tiempo real y estrategias de recopilación de datos. 12 de mayo de 2025; áreas de investigación incluyen Visión por Computadora y Métodos/Algoritmos. Este contenido también destaca StreamBridge, un marco para convertir LLMs de vídeo fuera de línea en modelos aptos para streaming, abordando dos desafíos en línea: la comprensión en tiempo real de múltiples vueltas y mecanismos proactivos de respuesta. Apple ML Research
Qué hay de nuevo
- Presentación de SlowFast-LLaVA-1.5 como una familia de LLMs de vídeo con eficiencia en tokens, orientada a la comprensión de vídeos de larga duración. Apple ML Research
- Integración del mecanismo SlowFast de dos flujos en un pipeline de entrenamiento unificado de vídeo e imagen. Apple ML Research
- Entrenamiento sobre una mezcla de datos compuesta solo por datasets públicos, con énfasis en escalas eficientes (1B y 3B). Apple ML Research
- Demostración de un rendimiento sólido a través de tamaños de modelo desde 1B hasta 7B, logrando resultados de punta en benchmarks de larga duración (LongVideoBench y MLVU) y un rendimiento sólido en una variedad de benchmarks de vídeo. Apple ML Research
- La publicación también aborda trabajos relacionados sobre streaming y comprensión multimodal de vídeo egocéntrico, incluyendo Ego4D y otros esfuerzos multimodales. Apple ML Research
Por qué importa (impacto para desarrolladores/empresas)
- La eficiencia en tokens y las escalas compactas (1B–3B) facilitan la implementación en móviles y en dispositivos periféricos, reduciendo requisitos de cómputo y memoria sin sacrificar precisión para contenidos de larga duración. Apple ML Research
- El rendimiento sólido entre 1B y 7B ofrece opciones flexibles de implementación para aplicaciones como búsqueda de vídeo, moderación de contenido y asistentes interactivos que razonan sobre streams largos. Apple ML Research
- El streaming, ilustrado por StreamBridge, abre la puerta a escenarios en línea donde los modelos procesan flujos de vídeo en tiempo real con mecanismos de memoria eficientes. Apple ML Research
- El uso de datos públicos fomenta la reproducibilidad y accesibilidad, permitiendo que investigadores y organizaciones construyan y evalúen LLMs de vídeo robustos sin depender de datos propietarios. Apple ML Research
Detalles técnicos o Implementación
SF-LLaVA-1.5 se apoya en la arquitectura SlowFast de dos flujos, integrándola en un flujo de entrenamiento unificado que optimiza conjuntamente vídeo e imagen. Se utiliza una mezcla de datos públicos para el entrenamiento, con énfasis en la eficiencia de tokens y la escalabilidad. El foco en escalas 1B y 3B busca facilitar implantes móviles manteniendo rendimiento de punta en benchmarks de vídeo de larga duración como LongVideoBench y MLVU. Los resultados muestran robustez a través de tamaños de modelo desde 1B a 7B. Además, el documento menciona StreamBridge, un marco para convertir LLMs de vídeo fuera de línea en modelos aptos para streaming. StreamBridge aborda dos desafíos en escenarios en línea: comprensión multivuelta en tiempo real y ausencia de mecanismos proactivos de respuesta. Usa un buffer de memoria y una estrategia de compresión por ronda para soportar la inferencia en streaming. Esto ilustra el interés de Apple en hacer que los LLMs de vídeo sean prácticos para aplicaciones en tiempo real, más allá de evaluaciones estáticas. También se mencionan esfuerzos sobre comprensión multimodal de vídeo egocéntrico y la generación de 7 millones de muestras QA para Ego4D. Apple ML Research
Tabla rápida: escalas y capacidades
| Tamaño | Objetivo principal | Benchmarks | Observaciones |---|---|---|---| | 1B | Eficiencia para móviles | LongVideoBench, MLVU | Base sólida para tareas de vídeo |3B | Equilibrio entre precisión y eficiencia | LongVideoBench, MLVU | Mayor robustez en benchmarks |7B | Comprensión de larga duración | LongVideoBench, MLVU | Rendimiento consistente en tareas diversas |
Puntos clave
- SF-LLaVA-1.5 es una familia de LLMs de vídeo con eficiencia en tokens para la comprensión de vídeos de larga duración, entrenada con datos públicos.
- La integración SlowFast de dos flujos en un pipeline de entrenamiento unificado permite modelar vídeo e imagen conjuntamente.
- El enfoque en escalas 1B y 3B facilita despliegues móviles sin sacrificar rendimiento en benchmarks de larga duración.
- El ecosistema de investigación incluye StreamBridge para streaming y generación de QA para Ego4D, evidenciando una agenda orientada a sistemas multimodales prácticos y en tiempo real. Apple ML Research
FAQ
-
- **Q : Qué es SF-LLaVA-1.5 ?**
Es una familia de LLMs de vídeo con eficiencia en tokens, diseñada para comprensión de vídeos de larga duración e incorpora el mecanismo SlowFast de dos flujos en un pipeline de entrenamiento simplificado con datos públicos. - **Q : Qué datos se usan para el entrenamiento ?** **A :** Una configuración de vídeo–imagen conjunta que utiliza una mezcla de datasets públicos. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Qué tamaños de modelo se destacan ?** **A :** Se enfatizan 1B y 3B, con rendimiento sólido hasta 7B. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Qué es StreamBridge ?** **A :** Un marco para convertir LLMs de vídeo fuera de línea en modelos aptos para streaming, con un buffer de memoria y compresión por ronda para inferencia en streaming. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Existen trabajos relacionados sobre vídeo egocéntrico ?** **A :** Sí, se mencionan esfuerzos de generación de QA para Ego4D y otras investigaciones multimodales. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)
Referencias
More news
Shadow Leak muestra cómo los agentes de ChatGPT pueden exfiltrar datos de Gmail mediante inyección de prompts
Investigadores de seguridad demostraron un ataque de inyección de prompts llamado Shadow Leak, que utilizó Deep Research de ChatGPT para exfiltrar datos de una bandeja de Gmail. OpenAI parcheó la falla; el caso subraya los riesgos de la IA con agentes.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Detección y reducción de scheming en modelos de IA: avances, métodos e implicaciones
OpenAI y Apollo Research evaluaron el desalineamiento oculto en modelos de frontera, observaron comportamientos de scheming y probaron un método de alineamiento deliberativo que redujo las acciones encubiertas unas 30x, con limitaciones y trabajos en curso.
Investigación de Autodesk trae Warp speed a CFD en NVIDIA GH200
Autodesk Research, Warp de NVIDIA y GH200 muestran CFD nativo en Python con XLB: ~8x de velocidad y escala hasta ~50 mil millones de celdas.
Reduciendo la latencia en frío para la inferencia de LLM con NVIDIA Run:ai Model Streamer
Análisis detallado de cómo NVIDIA Run:ai Model Streamer disminuye los tiempos de arranque en frío al transmitir pesos a la memoria GPU, con benchmarks en GP3, IO2 y S3.
Agilizar el acceso a cambios de contenido ISO-rating con Verisk Rating Insights y Amazon Bedrock
Verisk Rating Insights, impulsado por Amazon Bedrock, LLM y RAG, ofrece una interfaz conversacional para acceder a cambios ERC ISO, reduciendo descargas manuales y acelerando información precisa.