Skip to content
gemini-live-highlight
Source: theverge.com

Gemini Live de Google añade guía visual en pantalla, acciones entre apps y mejoras de voz

Sources: https://www.theverge.com/news/763114/google-gemini-live-ai-visual-guidance-speech-update

TL;DR

  • Gemini Live mostrará resaltos directamente en la pantalla mientras comparte la cámara, comenzando con dispositivos Pixel 10 el 28 de agosto y desplegándose a otros Androids antes de llegar a iOS en las próximas semanas. The Verge AI
  • Nuevas integraciones permitirán que Gemini Live interactúe con Messages, Phone y Clock, facilitando flujos de trabajo como redactar un mensaje mientras se discute una ruta. [The Verge AI]
  • Un modelo de audio actualizado mejorará el uso de elementos de la voz humana (entonación, ritmo y tono), con opciones para ajustar el tono, la velocidad e incluso adoptar acentos para narraciones. [The Verge AI]
  • Google enmarca estas actualizaciones dentro de un despliegue más amplio ligado al lanzamiento del Pixel 10, con soporte en Android y expansión próxima a iOS. [The Verge AI]

Contexto y antecedentes

Gemini Live es el asistente de IA en tiempo real de Google, diseñado para funcionar entre dispositivos y apps. Las nuevas características amplían la forma en que el asistente puede señalar objetos y detalles en la pantalla mientras compartes visiones con su ayuda. Google presenta estas capacidades junto con el lanzamiento de la línea Pixel 10, prevista para el 28 de agosto. Al mismo tiempo, Google planea iniciar el guía visual en otros dispositivos Android, con soporte para iOS por venir en las próximas semanas. Este esfuerzo contempla un Gemini Live más práctico y multmodal, y va más allá de simples conversaciones para guiar acciones en el mundo real. [The Verge AI]

Qué cambia para los usuarios

Google describe un conjunto de funciones para hacer que Gemini Live sea más útil durante conversaciones en tiempo real. La adición más visible es la capacidad de resaltar elementos directamente en la pantalla mientras el flujo de la cámara está activo. Esta capacidad estará disponible en los dispositivos Pixel 10 en el lanzamiento, con despliegue a otros Androids en paralelo y, posteriormente, expansión a iOS en las próximas semanas. [The Verge AI]

Qué hay de nuevo

Las actualizaciones clave se centran en guía visual, mayor integración entre apps y mejoras de voz:

  • Guías visuales en pantalla: cuando Gemini Live comparte la cámara, puede resaltar elementos en la pantalla para ayudar a identificar el objeto o herramienta correcto. El lanzamiento comienza con la familia Pixel 10 el 28 de agosto y se extiende a otros dispositivos Android en paralelo, con iOS llegando en las semanas siguientes. [The Verge AI]
  • Integración con apps: Gemini Live podrá interactuar con Messages, Phone y Clock, posibilitando flujos de trabajo como redactar un mensaje mientras se discuten direcciones. [The Verge AI]
  • Interrupción de conversaciones: los usuarios podrán interrumpir una conversación en curso para dar instrucciones o redactar un mensaje. [The Verge AI]
  • Modelo de voz actualizado: el sistema mejora la entonación, el ritmo y el tono, ofreciendo respuestas más naturales. [The Verge AI]
  • Tono, velocidad y narrativa: el asistente puede ajustar el tono según el tema, variar la velocidad de habla e incluso adoptar acentos para narraciones más ricas. [The Verge AI]
  • Cronograma de disponibilidad: el lanzamiento está ligado al Pixel 10, con expansión en Android y llegada a iOS en las próximas semanas. [The Verge AI]

Por qué importa (impacto para desarrolladores/empresas)

Estas actualizaciones tienen implicaciones para desarrolladores y empresas:

  • Guía visual para mayor precisión: resaltar objetos o herramientas en la pantalla puede reducir ambigüedades, acelerando decisiones y aumentando la tasa de finalización de tareas.
  • Automatización entre apps y colaboración: permitir que el asistente interactúe con Messages, Phone y Clock facilita flujos de trabajo complejos sin cambiar de aplicación, potencialmente aumentando la productividad en entornos profesionales.
  • Personalización a escala: el nuevo modelo de voz y la capacidad de modular tono, velocidad y acentos permiten adaptar las interacciones a distintos públicos y contextos, mejorando accesibilidad y engagement.
  • Expansión multiplataforma: el despliegue progresivo en Pixel 10, Android y próximamente iOS ilustra una estrategia multiplataforma que es relevante para desarrolladores que buscan experiencias consistentes entre dispositivos. [The Verge AI]

Detalles técnicos o Implementación

Desde un punto de vista técnico, las actualizaciones sugieren varias decisiones de integración y diseño UX:

  • Pipeline de guía visual: el sistema puede superponer resaltados en la pantalla durante el compartir de cámara. El comportamiento está ligado a la familia Pixel 10 y se extenderá a otros Androids en paralelo, con iOS por venir. Esto sugiere una estrategia de funciones por bandera y una capa de UI que sincroniza el compartir de cámara con las señales visuales. [The Verge AI]
  • Interfaz de integración con apps: la idea de que Gemini Live interactúe con Messages, Phone y Clock implica una API que permite al asistente iniciar acciones dentro de estas apps durante una conversación. El despliegue se centra en Android, pero el diseño apunta a extensiones futuras para más apps. [The Verge AI]
  • Interrupción de diálogo: la capacidad de interrumpir una conversación sugiere un modelo de control sensible a comandos del usuario para redirigir tareas sin perder contexto. [The Verge AI]
  • Actualización del modelo de voz: mejoras en entonación, ritmo y pitch indican una experiencia de voz más natural y expresiva. La posibilidad de adoptar acentos refuerza la personalización. [The Verge AI]
  • Mecanismo de despliegue: el calendario está conectado al lanzamiento del Pixel 10, con expansión en Android y llegada a iOS en las próximas semanas. [The Verge AI]

Puntos clave (takeaways)

  • Gemini Live ofrecerá guías visuales en pantalla durante el reparto de cámara, a partir de Pixel 10 el 28 de agosto.
  • Integración con Messages, Phone y Clock para facilitar tareas desde una conversación.
  • Modelo de voz actualizado con mejor entonación, ritmo y tono, con opciones de acento y velocidad.
  • Despliegue Android primero (Pixel 10), expandiéndose a otros Android y próximamente a iOS.
  • Enfoque en mejorar experiencias profesionales mediante guías visuales y menos cambios entre apps.

Preguntas frecuentes (FAQ)

  • P: ¿Cuándo estarán disponibles las nuevas funcionalidades para los usuarios? R: El lanzamiento comienza con los Pixel 10 el 28 de agosto, con despliegue a otros Androids en paralelo y llegada a iOS en las próximas semanas. [The Verge AI]
  • P: ¿Qué puede hacer Gemini Live con Messages, Phone y Clock? R: Podrá interactuar con esas apps, facilitando tareas como redactar un mensaje mientras se discuten direcciones, entre otras acciones entre apps. [The Verge AI]
  • P: ¿Cómo funciona la guía visual? R: Al compartir la cámara, Gemini Live puede resaltar elementos en la pantalla para ayudar a identificar el objeto o la herramienta adecuada. [The Verge AI]
  • P: ¿Cambió el modelo de voz? R: Sí, hay un modelo de voz actualizado que mejora entonación, ritmo y tono, con posibilidad de ajustar tono y velocidad y adoptar acentos para narraciones. [The Verge AI]
  • P: ¿El despliegue estará disponible en todas las plataformas? R: Es un despliegue por fases: Pixel 10 al lanzamiento, luego Android y, finalmente, iOS en las próximas semanas. [The Verge AI]

Referencias

More news