Gemini Live do Google ganha orientação visual na tela, ações entre apps e atualizações de voz
Sources: https://www.theverge.com/news/763114/google-gemini-live-ai-visual-guidance-speech-update
TL;DR
- O Gemini Live passará a realçar itens diretamente na tela durante o compartilhamento da câmera, começando pelos dispositivos Pixel 10 no dia 28 de agosto e com rollout para outros Androids antes de chegar ao iOS nas próximas semanas. The Verge AI
- Novas integrações permitirão que o Gemini Live interaja com Messages, Phone e Clock, possibilitando fluxos de trabalho mais suaves, como redigir uma mensagem durante uma discussão de direções. [The Verge AI]
- Um modelo de áudio atualizado vai melhorar a forma como o assistente usa elementos da fala humana, como entonação, ritmo e pitch, com opções para ajustar o tom, a velocidade e até adotar sotaques em narrativas. [The Verge AI]
- A Google posiciona essas atualizações como parte de um lançamento mais amplo ligado ao Pixel 10, com suporte a várias plataformas em Android e, em breve, iOS. [The Verge AI]
Contexto e antecedentes
O Gemini Live é o assistente de IA em tempo real da Google, projetado para funcionar entre dispositivos e apps. As novas funcionalidades ampliam como o assistente pode apontar objetos e detalhes na tela enquanto você compartilha visuais com a ajuda dele. O Google está apresentando esses recursos em conjunto com o lançamento da linha Pixel 10, marcado para o dia 28 de agosto. Ao mesmo tempo, a empresa planeja iniciar o guia visual em outros aparelhos Android, com suporte ao iOS a seguir nas próximas semanas. Esse movimento reforça o empenho da Google em tornar o Gemini Live mais prático e multimidial, indo além de conversas simples para guiar ações no mundo real. [The Verge AI]
O que está mudando para os usuários
A Google descreve um conjunto de recursos para tornar o Gemini Live mais útil durante conversas em tempo real. A adição mais visível é a capacidade de destacar itens diretamente na tela enquanto o compartilhamento de câmera está ativo. Esse recurso estará disponível nos dispositivos Pixel 10 no lançamento, com distribuição para outros Androids em paralelo e, posteriormente, expansão para iOS nas próximas semanas. [The Verge AI]
O que há de novo
As atualizações centram-se em orientação visual, integração com apps e melhorias de fala:
- Sobreposições de orientação visual: quando o Gemini Live compartilha a câmera, ele pode realçar itens na tela para ajudar a identificar o que está sendo citado. O lançamento começa com a linha Pixel 10 em 28 de agosto e se estende a outros dispositivos Android no mesmo período, com o iOS chegando nas semanas seguintes. [The Verge AI]
- Integração com apps: o Gemini Live poderá interagir com Messages, Phone e Clock, viabilizando fluxos de trabalho como redigir uma mensagem enquanto se discute direções. [The Verge AI]
- Interrupção de conversas: os usuários poderão interromper uma conversa em andamento com uma instrução para executar uma tarefa ou redigir uma mensagem. [The Verge AI]
- Modelo de fala atualizado: o sistema melhora entonação, ritmo e pitch, proporcionando respostas mais naturais. [The Verge AI]
- Tom, velocidade e narrativa: o assistente pode ajustar o tom conforme o tema, escolher velocidades de fala diferentes e até adotar sotaques para narrações mais ricas. [The Verge AI]
- Cronograma de disponibilidade: o lançamento inicial está ligado ao Pixel 10, com o suporte a Android expandindo-se ao mesmo tempo e o iOS chegando nas próximas semanas. [The Verge AI]
Por que isso importa (impacto para desenvolvedores/empresas)
Essas atualizações têm implicações importantes para desenvolvedores e empresas:
- Guia visual para maior precisão: destaques na tela reduzem ambiguidades ao apontar objetos ou ferramentas, acelerando decisões e aumentando a taxa de conclusão de tarefas.
- Automação entre apps e colaboração: permitir que o assistant interaja com Messages, Phone e Clock facilita fluxos de trabalho multiações sem alternar entre apps. Isso pode aumentar a produtividade em ambientes profissionais.
- Personalização em escala: o novo modelo de fala e a capacidade de modular tom, velocidade e sotaques ajudam a adaptar interações a diferentes públicos e contextos, melhorando acessibilidade e engajamento.
- Expansão entre plataformas: o lançamento em Pixel 10, seguido de Android e, em breve, iOS, demonstra uma estratégia de suporte multi‑plataforma que é relevante para desenvolvedores que planejam experiências consistentes entre dispositivos. [The Verge AI]
Detalhes técnicos ou Implementação
Do ponto de vista técnico, as atualizações sugerem várias decisões de integração e design de UX:
- Pipeline de orientação visual: o sistema pode sobrepor destaques na tela durante o compartilhamento de câmera. O comportamento está ligado à linha Pixel 10 no lançamento e é estendido para outros Androids ao mesmo tempo, com iOS vindo nas semanas seguintes. Isso sugere uma estratégia de recurso por meio de flags e uma camada de UI que sincroniza o compartilhamento de câmera com as cues visuais. [The Verge AI]
- Superfície de integração com apps: a ideia de o Gemini Live interagir com Messages, Phone e Clock implica uma API que permita ao assistente iniciar ações dentro desses apps durante uma conversa. O lançamento foca no Android, mas o design aponta para extensões futuras para mais apps. [The Verge AI]
- Interrupção de diálogo: a capacidade de interromper uma conversa em andamento indica um modelo de controle responsivo que respeita comandos do usuário para redirecionar tarefas sem redefinições longas de contexto. [The Verge AI]
- Atualização do modelo de fala: melhorias de entonação, ritmo e pitch sinalizam uma experiência de voz mais natural e expressiva. A possibilidade de adotar sotaques para narrações reforça a personalização. [The Verge AI]
- Mecânica de rollout: o cronograma está atrelado ao lançamento do Pixel 10 em 28 de agosto, com o suporte a Android expandindo-se de forma paralela e o iOS chegando nas próximas semanas. [The Verge AI]
Ponto de atenção (takeaways)
- Gemini Live passa a oferecer guias visuais na tela durante o compartilhamento de câmera, começando com o Pixel 10 no dia 28 de agosto.
- Integração entre apps ampliada (Messages, Phone, Clock) para tornar fluxos de trabalho mais fluídos a partir de uma conversa.
- Modelo de fala atualizado com melhor entonação, ritmo e pitch, com opções de tom, velocidade e sotaques para narração.
- Lançamento em Android primeiro (Pixel 10), expansão para outros Androids, com iOS em semanas futuras.
- Foco em melhorar a experiência profissional por meio de assistência contextual, redução de trocas entre apps e guias visuais.
FAQ
Referências
More news
Primeira olhada no app Google Home alimentado pelo Gemini
O The Verge mostra que o Google está atualizando o app Google Home para trazer recursos do Gemini, incluindo a barra de busca Ask Home, um redesign da interface e controles por voz natural para o lar.
Demos fracassados de óculos com Live AI da Meta não tiveram relação com Wi‑Fi, explica o CTO
Demos ao vivo dos óculos Ray‑Ban com Live AI da Meta enfrentaram falhas constrangedoras. O CTO Andrew Bosworth explica as causas, incluindo tráfego autoimplicado e um bug raro de chamada de vídeo, e aponta que o bug foi corrigido.
OpenAI supostamente desenvolve alto-falante inteligente, óculos, gravador e pin com Jony Ive
A OpenAI estaria explorando uma família de dispositivos com o ex-chefe de design da Apple, Jony Ive, incluindo um alto-falante inteligente sem tela, óculos, um gravador de voz e um pin vestível, com lançamento previsto para o final de 2026 ou início de 2027.
Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt
Pesquisadores de segurança demonstraram uma injeção de prompt chamada Shadow Leak que usou o Deep Research do ChatGPT para extrair dados de uma caixa de entrada do Gmail. OpenAI corrigiu a falha; o caso destaca riscos de IA com atuação autônoma.
Google expande Gemini no Chrome com lançamento multiplataforma e sem taxa de assinatura
O Gemini AI no Chrome ganha acesso às abas, histórico e propriedades do Google, com rollout para Mac e Windows nos EUA sem cobrança e com automação de tarefas e integrações com o Workspace.
James Cameron sobre IA e Realidade Mista: uma visão baseada em molduras com 3D no Quest
James Cameron e o CTO da Meta, Andrew Bosworth, discutem produção estereoscópica, o quadro como ferramenta de narrativa e como IA generativa pode ampliar o cinema sem substituir artistas, junto com o primeiro trailer de Avatar 3 na Horizon TV.