Gemini Live do Google ganha orientação visual na tela, ações entre apps e atualizações de voz

TL;DR

O Gemini Live passará a realçar itens diretamente na tela durante o compartilhamento da câmera, começando pelos dispositivos Pixel 10 no dia 28 de agosto e com rollout para outros Androids antes de chegar ao iOS nas próximas semanas. The Verge AI
Novas integrações permitirão que o Gemini Live interaja com Messages, Phone e Clock, possibilitando fluxos de trabalho mais suaves, como redigir uma mensagem durante uma discussão de direções. [The Verge AI]
Um modelo de áudio atualizado vai melhorar a forma como o assistente usa elementos da fala humana, como entonação, ritmo e pitch, com opções para ajustar o tom, a velocidade e até adotar sotaques em narrativas. [The Verge AI]
A Google posiciona essas atualizações como parte de um lançamento mais amplo ligado ao Pixel 10, com suporte a várias plataformas em Android e, em breve, iOS. [The Verge AI]

Contexto e antecedentes

O Gemini Live é o assistente de IA em tempo real da Google, projetado para funcionar entre dispositivos e apps. As novas funcionalidades ampliam como o assistente pode apontar objetos e detalhes na tela enquanto você compartilha visuais com a ajuda dele. O Google está apresentando esses recursos em conjunto com o lançamento da linha Pixel 10, marcado para o dia 28 de agosto. Ao mesmo tempo, a empresa planeja iniciar o guia visual em outros aparelhos Android, com suporte ao iOS a seguir nas próximas semanas. Esse movimento reforça o empenho da Google em tornar o Gemini Live mais prático e multimidial, indo além de conversas simples para guiar ações no mundo real. [The Verge AI]

O que está mudando para os usuários

A Google descreve um conjunto de recursos para tornar o Gemini Live mais útil durante conversas em tempo real. A adição mais visível é a capacidade de destacar itens diretamente na tela enquanto o compartilhamento de câmera está ativo. Esse recurso estará disponível nos dispositivos Pixel 10 no lançamento, com distribuição para outros Androids em paralelo e, posteriormente, expansão para iOS nas próximas semanas. [The Verge AI]

O que há de novo

As atualizações centram-se em orientação visual, integração com apps e melhorias de fala:

Sobreposições de orientação visual: quando o Gemini Live compartilha a câmera, ele pode realçar itens na tela para ajudar a identificar o que está sendo citado. O lançamento começa com a linha Pixel 10 em 28 de agosto e se estende a outros dispositivos Android no mesmo período, com o iOS chegando nas semanas seguintes. [The Verge AI]
Integração com apps: o Gemini Live poderá interagir com Messages, Phone e Clock, viabilizando fluxos de trabalho como redigir uma mensagem enquanto se discute direções. [The Verge AI]
Interrupção de conversas: os usuários poderão interromper uma conversa em andamento com uma instrução para executar uma tarefa ou redigir uma mensagem. [The Verge AI]
Modelo de fala atualizado: o sistema melhora entonação, ritmo e pitch, proporcionando respostas mais naturais. [The Verge AI]
Tom, velocidade e narrativa: o assistente pode ajustar o tom conforme o tema, escolher velocidades de fala diferentes e até adotar sotaques para narrações mais ricas. [The Verge AI]
Cronograma de disponibilidade: o lançamento inicial está ligado ao Pixel 10, com o suporte a Android expandindo-se ao mesmo tempo e o iOS chegando nas próximas semanas. [The Verge AI]

Por que isso importa (impacto para desenvolvedores/empresas)

Essas atualizações têm implicações importantes para desenvolvedores e empresas:

Guia visual para maior precisão: destaques na tela reduzem ambiguidades ao apontar objetos ou ferramentas, acelerando decisões e aumentando a taxa de conclusão de tarefas.
Automação entre apps e colaboração: permitir que o assistant interaja com Messages, Phone e Clock facilita fluxos de trabalho multiações sem alternar entre apps. Isso pode aumentar a produtividade em ambientes profissionais.
Personalização em escala: o novo modelo de fala e a capacidade de modular tom, velocidade e sotaques ajudam a adaptar interações a diferentes públicos e contextos, melhorando acessibilidade e engajamento.
Expansão entre plataformas: o lançamento em Pixel 10, seguido de Android e, em breve, iOS, demonstra uma estratégia de suporte multi‑plataforma que é relevante para desenvolvedores que planejam experiências consistentes entre dispositivos. [The Verge AI]

Detalhes técnicos ou Implementação

Do ponto de vista técnico, as atualizações sugerem várias decisões de integração e design de UX:

Pipeline de orientação visual: o sistema pode sobrepor destaques na tela durante o compartilhamento de câmera. O comportamento está ligado à linha Pixel 10 no lançamento e é estendido para outros Androids ao mesmo tempo, com iOS vindo nas semanas seguintes. Isso sugere uma estratégia de recurso por meio de flags e uma camada de UI que sincroniza o compartilhamento de câmera com as cues visuais. [The Verge AI]
Superfície de integração com apps: a ideia de o Gemini Live interagir com Messages, Phone e Clock implica uma API que permita ao assistente iniciar ações dentro desses apps durante uma conversa. O lançamento foca no Android, mas o design aponta para extensões futuras para mais apps. [The Verge AI]
Interrupção de diálogo: a capacidade de interromper uma conversa em andamento indica um modelo de controle responsivo que respeita comandos do usuário para redirecionar tarefas sem redefinições longas de contexto. [The Verge AI]
Atualização do modelo de fala: melhorias de entonação, ritmo e pitch sinalizam uma experiência de voz mais natural e expressiva. A possibilidade de adotar sotaques para narrações reforça a personalização. [The Verge AI]
Mecânica de rollout: o cronograma está atrelado ao lançamento do Pixel 10 em 28 de agosto, com o suporte a Android expandindo-se de forma paralela e o iOS chegando nas próximas semanas. [The Verge AI]

Ponto de atenção (takeaways)

Gemini Live passa a oferecer guias visuais na tela durante o compartilhamento de câmera, começando com o Pixel 10 no dia 28 de agosto.
Integração entre apps ampliada (Messages, Phone, Clock) para tornar fluxos de trabalho mais fluídos a partir de uma conversa.
Modelo de fala atualizado com melhor entonação, ritmo e pitch, com opções de tom, velocidade e sotaques para narração.
Lançamento em Android primeiro (Pixel 10), expansão para outros Androids, com iOS em semanas futuras.
Foco em melhorar a experiência profissional por meio de assistência contextual, redução de trocas entre apps e guias visuais.

FAQ

Referências

The Verge AI

Gemini Live do Google ganha orientação visual na tela, ações entre apps e atualizações de voz

TL;DR

Contexto e antecedentes

O que está mudando para os usuários

O que há de novo

Por que isso importa (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Ponto de atenção (takeaways)

FAQ

Referências

More news

Primeira olhada no app Google Home alimentado pelo Gemini

Demos fracassados de óculos com Live AI da Meta não tiveram relação com Wi‑Fi, explica o CTO

OpenAI supostamente desenvolve alto-falante inteligente, óculos, gravador e pin com Jony Ive

Shadow Leak mostra como agentes do ChatGPT podem exfiltrar dados do Gmail via injeção de prompt

Google expande Gemini no Chrome com lançamento multiplataforma e sem taxa de assinatura

James Cameron sobre IA e Realidade Mista: uma visão baseada em molduras com 3D no Quest