SlowFast-LLaVA-1.5 : LLMs vidéo économes en jetons pour la compréhension du long terme

TL;DR

SlowFast-LLaVA-1.5 (SF-LLaVA-1.5) est une famille de grands modèles de langage pour vidéo avec une efficacité en jetons, axée sur la compréhension de vidéos de longue durée. Apple ML Research
Elle intègre le mécanisme SlowFast à deux flux dans un pipeline d’entraînement simplifié et réalise un apprentissage conjoint vidéo–image sur un ensemble de données publiques uniquement. Apple ML Research
Le design se focalise sur des échelles efficaces (1B et 3B) et démontre des performances robustes entre 1B et 7B, atteignant des résultats à la pointe sur des benchmarks de longue durée. Apple ML Research
En plus de SF-LLaVA-1.5, la publication mentionne des travaux connexes sur le streaming et le multimodal, notamment StreamBridge pour transformer les Video-LLMs hors-ligne en modèles de streaming et des efforts de génération de QA pour des vidéos égo-centrices. Apple ML Research

Contexte et antécédents

La famille SlowFast-LLaVA-1.5 est présentée comme une approche efficace pour la compréhension vidéo de longue durée. En s’appuyant sur l’architecture SlowFast à deux flux, les auteurs intègrent un pipeline d’entraînement simplifié qui optimise conjointement les entrées vidéo et image à partir d’un ensemble de données publics soigneusement sélectionné. Cela s’inscrit dans une série de recherches d’Apple ML Research visant des modèles multimodaux efficients et évolutifs capables de fonctionner sur des dispositifs à ressources limitées. Les résultats montrent des performances solides sur une variété de tâches et de tailles de modèle, de 1B à 7B paramètres, y compris des performances de pointe sur des benchmarks de longue durée tels que LongVideoBench et MLVU. Le travail souligne une philosophie de conception : obtenir une grande précision tout en réduisant les coûts de calcul et de mémoire et en restant accessible via des données publiques. La page fait également référence à des travaux connexes sur le streaming et la compréhension multimodale des vidéos égo-centriques, reflétant une orientation plus large vers la compréhension en temps réel et les stratégies de collecte de données. Le 12 mai 2025; les domaines de recherche incluent la vision par ordinateur et les méthodes/algorithmes. Cette source met également en lumière StreamBridge, un cadre pour transformer les LLMs de vidéo hors-ligne en modèles compatibles streaming, et aborde deux défis en ligne : la compréhension en temps réel à plusieurs tours et les mécanismes de réponse proactifs. Apple ML Research

Quoi de neuf

Présentation de SlowFast-LLaVA-1.5 comme une famille de LLMs vidéo à efficacité en jetons, orientée vers la compréhension de vidéos de longue durée. Apple ML Research
Intégration du mécanisme SlowFast à deux flux dans un pipeline d’entraînement unifié (vidéo et image). Apple ML Research
Formation sur une mixture de données composée uniquement de datasets publics, avec une focalisation sur des échelles efficaces (1B et 3B). Apple ML Research
Démonstration de performances solides entre 1B et 7B, atteignant des résultats de pointe sur les benchmarks de longue durée LongVideoBench et MLVU et de bonnes performances sur divers benchmarks vidéo. Apple ML Research
La publication évoque également des travaux connexes sur le streaming et la compréhension vidéo égo-centrée, y compris Ego4D et d’autres recherches multimodales. Apple ML Research

Importance pour les développeurs/entreprises

L’efficacité en jetons et les échelles compactes (1B–3B) facilitent le déploiement sur mobile et les périphériques edge, en réduisant les exigences de calcul et de mémoire sans compromettre la précision pour les contenus longs. Apple ML Research
Les performances robustes entre 1B et 7B offrent des options flexibles de déploiement pour des applications comme la recherche vidéo, la modération de contenu et les assistants qui raisonner sur des flux longs. Apple ML Research
Le streaming, illustré par StreamBridge, ouvre la voie à des déploiements en ligne où les modèles traitent des flux vidéo en temps réel avec des mécanismes mémoire efficaces. Apple ML Research
L’utilisation de données publiques favorise la reproductibilité et l’accessibilité, permettant à chercheurs et organisations de construire et évaluer des LLMs vidéo robustes sans dépendre de jeux de données propriétaires. Apple ML Research

Détails techniques ou Implémentation

SF-LLaVA-1.5 s’appuie sur l’architecture SlowFast à deux flux, en l’intégrant dans un flux d’entraînement simplifié qui optimise conjointement les entrées vidéo et image. Le système s’appuie sur un mélange de données publiquement accessibles pour l’entraînement, en insistant sur l’efficacité des jetons et l’évolutivité. L’objectif est d’obtenir des performances de pointe sur des benchmarks de longue durée comme LongVideoBench et MLVU, tout en ciblant des tailles de modèle 1B et 3B pour une meilleure compatibilité mobile. Les résultats montrent une robustesse trans-taille de 1B à 7B. Par ailleurs, le document évoque StreamBridge, un cadre pour transformer les LLMs de vidéo hors-ligne en modèles adaptés au streaming. Il résout deux défis majeurs en ligne : la compréhension multi-tours en temps réel et l’absence de mécanismes proactifs. L’approche utilise un buffer mémoire et une stratégie de compression par tour pour supporter l’inférence en streaming. Cela illustre l’intérêt d’Apple pour rendre les LLMs vidéo pratiques dans des applications temps réel, au-delà des évaluations statiques. Le texte mentionne aussi des travaux sur la compréhension multimodale des vidéos égo-centrées et la génération de 7 millions d’échantillons QA Ego4D. Apple ML Research

Tableau rapide : échelles et capacités

| Taille du modèle | Objectif principal | Benchmarks | Remarques |---|---|---|---| | 1B | Efficacité pour mobile | LongVideoBench, MLVU | Base solide sur les tâches vidéo |3B |Équilibre précision/efficacité | LongVideoBench, MLVU | Robustesse accrue sur les benchmarks |7B | Compréhension longue durée | LongVideoBench, MLVU | Performance stable sur diverses tâches |

Points clés à retenir

SF-LLaVA-1.5 est une famille de LLMs vidéo à efficacité en jetons pour la compréhension de vidéos de longue durée, entraînée sur des données publiques.
L’intégration SlowFast à deux flux dans un pipeline d’entraînement unifié permet une modélisation conjointe vidéo–image.
Le travail met l’accent sur les échelles 1B et 3B pour des déploiements mobiles tout en atteignant des résultats de pointe sur des benchmarks de longue durée.
Le cadre StreamBridge et les efforts autour des données Ego4D illustrent une approche plus large orientée vers des systèmes multimodaux réels et en temps réel. Apple ML Research

FAQ

- **Q : Qu’est-ce que SF-LLaVA-1.5 ?**

Une famille de LLMs vidéo à efficacité en jetons, conçue pour la compréhension de vidéos de longue durée, intégrant le mécanisme SlowFast à deux flux dans un pipeline d’entraînement simplifié utilisant des données publiques. - **Q : Quelles données sont utilisées ?** **A :** Un entraînement conjoint vidéo–image sur une mixture de datasets publiquement disponibles. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Quelles tailles de modèles sont privilégiées ?** **A :** L’accent est mis sur 1B et 3B, avec des résultats robustes jusqu’à 7B. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Qu’est-ce que StreamBridge ?** **A :** Un cadre pour transformer les LLMs vidéo hors ligne en modèles capables de streaming, avec buffer mémoire et compression par ronde pour l’inférence en streaming. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava) - **Q : Y a-t-il des travaux liés sur la vidéo égo-centrique ?** **A :** Oui, des efforts sont mentionnés autour de Ego4D et d’autres recherches multimodales. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)