SlowFast-LLaVA-1.5: LLMs de Vídeo Eficientes em Tokens para Compreensão de Longa Duração
Sources: https://machinelearning.apple.com/research/slowfast-llava, Apple ML Research
TL;DR
- SlowFast-LLaVA-1.5 (SF-LLaVA-1.5) é uma família de modelos de linguagem grandes para vídeo com eficiência de tokens, voltados à compreensão de vídeos de longa duração. Apple ML Research
- Integra o mecanismo SlowFast de dois fluxos em um fluxo de treinamento simplificado e realiza treinamento conjunto de vídeo e imagem em uma mistura de dados composta apenas por conjuntos de dados publicamente disponíveis. Apple ML Research
- O design foca em escalas eficientes (1B e 3B) e demonstra desempenho robusto entre 1B–7B, alcançando resultados de ponta em benchmarks de vídeo de longa duração. Apple ML Research
- Além do SF-LLaVA-1.5, a publicação destaca pesquisas relacionadas sobre streaming e multimodalidade, incluindo o StreamBridge para transformar Video-LLMs offline em modelos de streaming e esforços de geração de QA para vídeo egocêntrico. Apple ML Research
Contexto e antecedentes
A família SlowFast-LLaVA-1.5 é apresentada como uma abordagem eficiente para compreensão de vídeo de longa duração. Com base na arquitetura SlowFast de dois fluxos, os autores integram um fluxo de treinamento simplificado que otimiza conjuntamente entradas de vídeo e imagem usando um conjunto cuidadoso de datasets publicamente disponíveis. Isso se alinha a uma linha de pesquisa da Apple ML Research que busca modelos multimodais eficientes e escaláveis, capazes de operar em dispositivos com recursos limitados. Os resultados indicam desempenho sólido em várias tarefas e tamanhos de modelo, de 1B a 7B parâmetros, incluindo desempenho de ponta em benchmarks de vídeo de longa duração como LongVideoBench e MLVU. O trabalho enfatiza uma filosofia de design: alcançar alta precisão com eficiência de computação e memória, mantendo acesso via dados públicos. A página também faz referência a trabalhos relacionados sobre streaming e compreensão multimodal de vídeo egocêntrico, refletindo uma agenda mais ampla de pesquisa sobre compreensão de vídeo em tempo real e estratégias de coleta de dados. 12 de maio de 2025; áreas de pesquisa incluem Visão Computacional e Métodos/Algoritmos. Este conteúdo também destaca o StreamBridge, um framework para transformar LLMs de vídeo offline em modelos aptos a streaming, abordando dois desafios centrais em cenários online: compreensão em tempo real de várias turnos e mecanismos proativos de resposta. Apple ML Research
O que há de novo
- Apresentação de SlowFast-LLaVA-1.5 como uma família de LLMs de vídeo com eficiência de tokens voltada à compreensão de vídeo de longa duração. Apple ML Research
- Incorporação do mecanismo SlowFast de dois fluxos em um pipeline de treinamento integrado de vídeo e imagem. Apple ML Research
- Treinamento com uma mistura de dados composta apenas por datasets publicamente disponíveis, com foco em escalas eficientes (1B e 3B). Apple ML Research
- Demonstração de desempenho sólido em tamanhos de modelo entre 1B e 7B, obtendo resultados de ponta em benchmarks de vídeo de longa duração (LongVideoBench e MLVU) e bom desempenho em uma variedade de tarefas de vídeo. Apple ML Research
- A publicação também discute esforços de pesquisa multimodal mais amplos, incluindo StreamBridge para streaming de LLMs de vídeo e geração de QA para vídeos egocêntricos (dados Ego4D). Apple ML Research
Por que isso importa (impacto para desenvolvedores/empresas)
- Eficiência de tokens e escalas compactas (foco em 1B–3B) tornam a compreensão de vídeo de alta qualidade mais acessível para dispositivos móveis e borda, reduzindo demanda de computação e memória sem comprometer a precisão em conteúdos de longa duração. Apple ML Research
- O desempenho sólido entre 1B–7B sugere opções de implantação flexíveis para aplicações como busca de vídeo, moderação de conteúdo e assistentes interativos que raciocinem sobre streams longos. Apple ML Research
- Inovações como o StreamBridge apontam para cenários práticos de inferência online, onde modelos precisam processar streams de vídeo em tempo real com mecanismos de memória eficientes. Apple ML Research
- O uso de dados públicos para treinamento favorece a reprodutibilidade e acessibilidade, permitindo que pesquisadores e organizações desenvolvam e avaliem LLMs de vídeo robustos sem depender de dados proprietários. Apple ML Research
Detalhes técnicos ou Implementação
O SF-LLaVA-1.5 utiliza a arquitetura SlowFast de dois fluxos, integrando-a a um fluxo de treinamento simplificado que otimiza conjuntamente vídeo e imagem. Uma mistura de dados publica é usada para o treinamento, com ênfase em eficiência de tokens e escalabilidade. O foco em escalas de 1B e 3B busca implantação móvel eficiente, mantendo desempenho de ponta em benchmarks de vídeo de longa duração como LongVideoBench e MLVU. Os resultados indicam desempenho sólido entre os tamanhos de modelo de 1B a 7B, evidenciando a versatilidade da abordagem. Além do trabalho SF-LLaVA-1.5, a fonte menciona o StreamBridge, um framework para transformar LLMs de vídeo offline em modelos aptos a streaming. O StreamBridge aborda dois desafios centrais em cenários online: compreensão em tempo real multiturno e ausência de mecanismos proativos de resposta. Ele usa um buffer de memória com uma estratégia de compressão por rodada para suportar inferência por streaming. Isso demonstra o interesse mais amplo da Apple em tornar LLMs de vídeo práticas para aplicações em tempo real, além de avaliações estáticas. A página também cita esforços em compreensão multimodal de vídeo egocêntrico, incluindo a geração automática de 7 milhões de amostras de QA para dados Ego4D. Apple ML Research
Tabela-chave: escalas de modelo e capacidades
| Tamanho | Objetivo principal | Benchmarks mencionados | Observações |---|---|---|---| | 1B | Eficiente para dispositivos móveis | LongVideoBench, MLVU | Base sólida em várias tarefas de vídeo |3B | Equilíbrio entre precisão e eficiência | LongVideoBench, MLVU | Melhor robustez em benchmarks |7B | Compreensão de longa duração com maior capacidade | LongVideoBench, MLVU | Desempenho consistente em tarefas diversas |
Principais aprendizados
- SF-LLaVA-1.5 é uma família de LLMs de vídeo com eficiência de tokens para compreensão de vídeos de longa duração, treinados com dados públicos.
- A integração SlowFast de dois fluxos em um pipeline de treinamento unificado permite modelagem conjunta de vídeo e imagem.
- Foco em escalas 1B e 3B facilita implantações móveis sem sacrificar desempenho em benchmarks de longa duração.
- O ecossistema de pesquisa menciona StreamBridge para streaming e geração de QA para vídeo egocêntrico, refletindo uma agenda de aplicações reais. Apple ML Research
FAQ
-
O que é o SF-LLaVA-1.5?
É uma família de LLMs de vídeo com eficiência de tokens, projetada para compreensão de vídeos de longa duração e que utiliza SlowFast de dois fluxos em um pipeline de treinamento simplificado com dados públicos.
-
ue dados são usados no treinamento?
Uma configuração de vídeo–imagem conjunta usa uma mistura de dados composta apenas por datasets publicamente disponíveis. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)
-
uais tamanhos de modelo são enfatizados?
Foco em 1B e 3B, com desempenho sólido entre 1B–7B. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)
-
O que é StreamBridge?
Um framework para transformar LLMs de vídeo offline em modelos aptos a streaming, lidando com compreensão em tempo real de várias turnos e respostas proativas por meio de um buffer de memória e compressão por rodada. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)
-
Existem trabalhos relacionados sobre vídeo egocêntrico?
Sim, há menção a geração de dados QA para Ego4D com 7 milhões de amostras, além de outras linhas de pesquisa multimodal. [Apple ML Research](https://machinelearning.apple.com/research/slowfast-llava)
Referências
More news
Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt
Pesquisadores de segurança demonstraram uma injeção de prompt chamada Shadow Leak que usou o Deep Research do ChatGPT para extrair dados de uma caixa de entrada do Gmail. OpenAI corrigiu a falha; o caso destaca riscos de IA com atuação autônoma.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Deteção e redução de scheming em modelos de IA: avanços, métodos e implicações
OpenAI e Apollo Research avaliaram desalineação oculta em modelos de fronteira, observaram comportamentos de scheming e testaram um método de alinhamento deliberativo que reduziu ações encobertas em cerca de 30x, com limitações e trabalhos em andamento.
Reduzindo a Latência de Cold Start para Inferência de LLM com NVIDIA Run:ai Model Streamer
Análise detalhada de como o NVIDIA Run:ai Model Streamer reduz o tempo de cold-start na inferência de LLMs ao transmitir pesos para a memória da GPU, com benchmarks em GP3, IO2 e S3.
Autodesk Research Revoluciona CFD com Warp no NVIDIA GH200
Autodesk Research, NVIDIA Warp e GH200 mostram CFD baseado em Python com XLB: ~8x de velocidade, até 50 bilhões de células e desempenho próximo a soluções OpenCL/C++.
Otimize o acesso a alterações de conteúdo ISO-rating com Verisk Rating Insights e Amazon Bedrock
Verisk Rating Insights, impulsionado pelo Amazon Bedrock, LLMs e RAG, oferece uma interface conversacional para acessar mudanças ERC ISO, reduzindo downloads manuais e aumentando a velocidade e a precisão das informações.