SlowFast-LLaVA-1.5 : LLMs vidéo économes en jetons pour la compréhension du long terme
Sources: https://machinelearning.apple.com/research/slowfast-llava, Apple ML Research
TL;DR
- SlowFast-LLaVA-1.5 (SF-LLaVA-1.5) est une famille de grands modèles de langage pour vidéo avec une efficacité en jetons, axée sur la compréhension de vidéos de longue durée. Apple ML Research
- Elle intègre le mécanisme SlowFast à deux flux dans un pipeline d’entraînement simplifié et réalise un apprentissage conjoint vidéo–image sur un ensemble de données publiques uniquement. Apple ML Research
- Le design se focalise sur des échelles efficaces (1B et 3B) et démontre des performances robustes entre 1B et 7B, atteignant des résultats à la pointe sur des benchmarks de longue durée. Apple ML Research
- En plus de SF-LLaVA-1.5, la publication mentionne des travaux connexes sur le streaming et le multimodal, notamment StreamBridge pour transformer les Video-LLMs hors-ligne en modèles de streaming et des efforts de génération de QA pour des vidéos égo-centrices. Apple ML Research
Contexte et antécédents
La famille SlowFast-LLaVA-1.5 est présentée comme une approche efficace pour la compréhension vidéo de longue durée. En s’appuyant sur l’architecture SlowFast à deux flux, les auteurs intègrent un pipeline d’entraînement simplifié qui optimise conjointement les entrées vidéo et image à partir d’un ensemble de données publics soigneusement sélectionné. Cela s’inscrit dans une série de recherches d’Apple ML Research visant des modèles multimodaux efficients et évolutifs capables de fonctionner sur des dispositifs à ressources limitées. Les résultats montrent des performances solides sur une variété de tâches et de tailles de modèle, de 1B à 7B paramètres, y compris des performances de pointe sur des benchmarks de longue durée tels que LongVideoBench et MLVU. Le travail souligne une philosophie de conception : obtenir une grande précision tout en réduisant les coûts de calcul et de mémoire et en restant accessible via des données publiques. La page fait également référence à des travaux connexes sur le streaming et la compréhension multimodale des vidéos égo-centriques, reflétant une orientation plus large vers la compréhension en temps réel et les stratégies de collecte de données. Le 12 mai 2025; les domaines de recherche incluent la vision par ordinateur et les méthodes/algorithmes. Cette source met également en lumière StreamBridge, un cadre pour transformer les LLMs de vidéo hors-ligne en modèles compatibles streaming, et aborde deux défis en ligne : la compréhension en temps réel à plusieurs tours et les mécanismes de réponse proactifs. Apple ML Research
Quoi de neuf
- Présentation de SlowFast-LLaVA-1.5 comme une famille de LLMs vidéo à efficacité en jetons, orientée vers la compréhension de vidéos de longue durée. Apple ML Research
- Intégration du mécanisme SlowFast à deux flux dans un pipeline d’entraînement unifié (vidéo et image). Apple ML Research
- Formation sur une mixture de données composée uniquement de datasets publics, avec une focalisation sur des échelles efficaces (1B et 3B). Apple ML Research
- Démonstration de performances solides entre 1B et 7B, atteignant des résultats de pointe sur les benchmarks de longue durée LongVideoBench et MLVU et de bonnes performances sur divers benchmarks vidéo. Apple ML Research
- La publication évoque également des travaux connexes sur le streaming et la compréhension vidéo égo-centrée, y compris Ego4D et d’autres recherches multimodales. Apple ML Research
Importance pour les développeurs/entreprises
- L’efficacité en jetons et les échelles compactes (1B–3B) facilitent le déploiement sur mobile et les périphériques edge, en réduisant les exigences de calcul et de mémoire sans compromettre la précision pour les contenus longs. Apple ML Research
- Les performances robustes entre 1B et 7B offrent des options flexibles de déploiement pour des applications comme la recherche vidéo, la modération de contenu et les assistants qui raisonner sur des flux longs. Apple ML Research
- Le streaming, illustré par StreamBridge, ouvre la voie à des déploiements en ligne où les modèles traitent des flux vidéo en temps réel avec des mécanismes mémoire efficaces. Apple ML Research
- L’utilisation de données publiques favorise la reproductibilité et l’accessibilité, permettant à chercheurs et organisations de construire et évaluer des LLMs vidéo robustes sans dépendre de jeux de données propriétaires. Apple ML Research
Détails techniques ou Implémentation
SF-LLaVA-1.5 s’appuie sur l’architecture SlowFast à deux flux, en l’intégrant dans un flux d’entraînement simplifié qui optimise conjointement les entrées vidéo et image. Le système s’appuie sur un mélange de données publiquement accessibles pour l’entraînement, en insistant sur l’efficacité des jetons et l’évolutivité. L’objectif est d’obtenir des performances de pointe sur des benchmarks de longue durée comme LongVideoBench et MLVU, tout en ciblant des tailles de modèle 1B et 3B pour une meilleure compatibilité mobile. Les résultats montrent une robustesse trans-taille de 1B à 7B. Par ailleurs, le document évoque StreamBridge, un cadre pour transformer les LLMs de vidéo hors-ligne en modèles adaptés au streaming. Il résout deux défis majeurs en ligne : la compréhension multi-tours en temps réel et l’absence de mécanismes proactifs. L’approche utilise un buffer mémoire et une stratégie de compression par tour pour supporter l’inférence en streaming. Cela illustre l’intérêt d’Apple pour rendre les LLMs vidéo pratiques dans des applications temps réel, au-delà des évaluations statiques. Le texte mentionne aussi des travaux sur la compréhension multimodale des vidéos égo-centrées et la génération de 7 millions d’échantillons QA Ego4D. Apple ML Research
Tableau rapide : échelles et capacités
| Taille du modèle | Objectif principal | Benchmarks | Remarques |---|---|---|---| | 1B | Efficacité pour mobile | LongVideoBench, MLVU | Base solide sur les tâches vidéo |3B |Équilibre précision/efficacité | LongVideoBench, MLVU | Robustesse accrue sur les benchmarks |7B | Compréhension longue durée | LongVideoBench, MLVU | Performance stable sur diverses tâches |
Points clés à retenir
- SF-LLaVA-1.5 est une famille de LLMs vidéo à efficacité en jetons pour la compréhension de vidéos de longue durée, entraînée sur des données publiques.
- L’intégration SlowFast à deux flux dans un pipeline d’entraînement unifié permet une modélisation conjointe vidéo–image.
- Le travail met l’accent sur les échelles 1B et 3B pour des déploiements mobiles tout en atteignant des résultats de pointe sur des benchmarks de longue durée.
- Le cadre StreamBridge et les efforts autour des données Ego4D illustrent une approche plus large orientée vers des systèmes multimodaux réels et en temps réel. Apple ML Research
FAQ
-
- **Q : Qu’est-ce que SF-LLaVA-1.5 ?**
Une famille de LLMs vidéo à efficacité en jetons, conçue pour la compréhension de vidéos de longue durée, intégrant le mécanisme SlowFast à deux flux dans un pipeline d’entraînement simplifié utilisant des données publiques. - **Q : Quelles données sont utilisées ?** **A :** Un entraînement conjoint vidéo–image sur une mixture de datasets publiquement disponibles. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Quelles tailles de modèles sont privilégiées ?** **A :** L’accent est mis sur 1B et 3B, avec des résultats robustes jusqu’à 7B. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Qu’est-ce que StreamBridge ?** **A :** Un cadre pour transformer les LLMs vidéo hors ligne en modèles capables de streaming, avec buffer mémoire et compression par ronde pour l’inférence en streaming. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Y a-t-il des travaux liés sur la vidéo égo-centrique ?** **A :** Oui, des efforts sont mentionnés autour de Ego4D et d’autres recherches multimodales. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Shadow Leak montre comment les agents ChatGPT peuvent exfiltrer des données Gmail via injection de prompt
Des chercheurs en sécurité ont démontré une attaque par injection de prompt baptisée Shadow Leak, utilisant Deep Research de ChatGPT pour exfiltrer discrètement des données d'une boîte Gmail. OpenAI a corrigé la faille; l'affaire illustre les risques des IA agentisées.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Détection et réduction de scheming dans les modèles d IA : progrès, méthodes et implications
OpenAI et Apollo Research ont évalué le désalignement caché dans des modèles de frontière, observé des comportements de scheming et testé une méthode d’alignement délibératif qui a réduit les actions covertes d’environ 30x, tout en reconnaissant des limites et des travaux en cours.
Autodesk Research mène la CFD à vitesse Warp sur le NVIDIA GH200
Autodesk Research, Warp de NVIDIA et le GH200 démontrent une CFD Python-native avec XLB, atteignant environ 8x de vitesse et évoluant jusqu’à 50 milliards de cellules.
Réduire la latence de démarrage à froid pour l’inférence LLM avec NVIDIA Run:ai Model Streamer
Analyse approfondie sur la façon dont NVIDIA Run:ai Model Streamer abaisse les temps de démarrage à froid pour l’inférence des LLM en diffusant les poids vers la mémoire GPU, avec des benchmarks sur GP3, IO2 et S3.