Gemini Live de Google añade guía visual en pantalla, acciones entre apps y mejoras de voz
Sources: https://www.theverge.com/news/763114/google-gemini-live-ai-visual-guidance-speech-update
TL;DR
- Gemini Live mostrará resaltos directamente en la pantalla mientras comparte la cámara, comenzando con dispositivos Pixel 10 el 28 de agosto y desplegándose a otros Androids antes de llegar a iOS en las próximas semanas. The Verge AI
- Nuevas integraciones permitirán que Gemini Live interactúe con Messages, Phone y Clock, facilitando flujos de trabajo como redactar un mensaje mientras se discute una ruta. [The Verge AI]
- Un modelo de audio actualizado mejorará el uso de elementos de la voz humana (entonación, ritmo y tono), con opciones para ajustar el tono, la velocidad e incluso adoptar acentos para narraciones. [The Verge AI]
- Google enmarca estas actualizaciones dentro de un despliegue más amplio ligado al lanzamiento del Pixel 10, con soporte en Android y expansión próxima a iOS. [The Verge AI]
Contexto y antecedentes
Gemini Live es el asistente de IA en tiempo real de Google, diseñado para funcionar entre dispositivos y apps. Las nuevas características amplían la forma en que el asistente puede señalar objetos y detalles en la pantalla mientras compartes visiones con su ayuda. Google presenta estas capacidades junto con el lanzamiento de la línea Pixel 10, prevista para el 28 de agosto. Al mismo tiempo, Google planea iniciar el guía visual en otros dispositivos Android, con soporte para iOS por venir en las próximas semanas. Este esfuerzo contempla un Gemini Live más práctico y multmodal, y va más allá de simples conversaciones para guiar acciones en el mundo real. [The Verge AI]
Qué cambia para los usuarios
Google describe un conjunto de funciones para hacer que Gemini Live sea más útil durante conversaciones en tiempo real. La adición más visible es la capacidad de resaltar elementos directamente en la pantalla mientras el flujo de la cámara está activo. Esta capacidad estará disponible en los dispositivos Pixel 10 en el lanzamiento, con despliegue a otros Androids en paralelo y, posteriormente, expansión a iOS en las próximas semanas. [The Verge AI]
Qué hay de nuevo
Las actualizaciones clave se centran en guía visual, mayor integración entre apps y mejoras de voz:
- Guías visuales en pantalla: cuando Gemini Live comparte la cámara, puede resaltar elementos en la pantalla para ayudar a identificar el objeto o herramienta correcto. El lanzamiento comienza con la familia Pixel 10 el 28 de agosto y se extiende a otros dispositivos Android en paralelo, con iOS llegando en las semanas siguientes. [The Verge AI]
- Integración con apps: Gemini Live podrá interactuar con Messages, Phone y Clock, posibilitando flujos de trabajo como redactar un mensaje mientras se discuten direcciones. [The Verge AI]
- Interrupción de conversaciones: los usuarios podrán interrumpir una conversación en curso para dar instrucciones o redactar un mensaje. [The Verge AI]
- Modelo de voz actualizado: el sistema mejora la entonación, el ritmo y el tono, ofreciendo respuestas más naturales. [The Verge AI]
- Tono, velocidad y narrativa: el asistente puede ajustar el tono según el tema, variar la velocidad de habla e incluso adoptar acentos para narraciones más ricas. [The Verge AI]
- Cronograma de disponibilidad: el lanzamiento está ligado al Pixel 10, con expansión en Android y llegada a iOS en las próximas semanas. [The Verge AI]
Por qué importa (impacto para desarrolladores/empresas)
Estas actualizaciones tienen implicaciones para desarrolladores y empresas:
- Guía visual para mayor precisión: resaltar objetos o herramientas en la pantalla puede reducir ambigüedades, acelerando decisiones y aumentando la tasa de finalización de tareas.
- Automatización entre apps y colaboración: permitir que el asistente interactúe con Messages, Phone y Clock facilita flujos de trabajo complejos sin cambiar de aplicación, potencialmente aumentando la productividad en entornos profesionales.
- Personalización a escala: el nuevo modelo de voz y la capacidad de modular tono, velocidad y acentos permiten adaptar las interacciones a distintos públicos y contextos, mejorando accesibilidad y engagement.
- Expansión multiplataforma: el despliegue progresivo en Pixel 10, Android y próximamente iOS ilustra una estrategia multiplataforma que es relevante para desarrolladores que buscan experiencias consistentes entre dispositivos. [The Verge AI]
Detalles técnicos o Implementación
Desde un punto de vista técnico, las actualizaciones sugieren varias decisiones de integración y diseño UX:
- Pipeline de guía visual: el sistema puede superponer resaltados en la pantalla durante el compartir de cámara. El comportamiento está ligado a la familia Pixel 10 y se extenderá a otros Androids en paralelo, con iOS por venir. Esto sugiere una estrategia de funciones por bandera y una capa de UI que sincroniza el compartir de cámara con las señales visuales. [The Verge AI]
- Interfaz de integración con apps: la idea de que Gemini Live interactúe con Messages, Phone y Clock implica una API que permite al asistente iniciar acciones dentro de estas apps durante una conversación. El despliegue se centra en Android, pero el diseño apunta a extensiones futuras para más apps. [The Verge AI]
- Interrupción de diálogo: la capacidad de interrumpir una conversación sugiere un modelo de control sensible a comandos del usuario para redirigir tareas sin perder contexto. [The Verge AI]
- Actualización del modelo de voz: mejoras en entonación, ritmo y pitch indican una experiencia de voz más natural y expresiva. La posibilidad de adoptar acentos refuerza la personalización. [The Verge AI]
- Mecanismo de despliegue: el calendario está conectado al lanzamiento del Pixel 10, con expansión en Android y llegada a iOS en las próximas semanas. [The Verge AI]
Puntos clave (takeaways)
- Gemini Live ofrecerá guías visuales en pantalla durante el reparto de cámara, a partir de Pixel 10 el 28 de agosto.
- Integración con Messages, Phone y Clock para facilitar tareas desde una conversación.
- Modelo de voz actualizado con mejor entonación, ritmo y tono, con opciones de acento y velocidad.
- Despliegue Android primero (Pixel 10), expandiéndose a otros Android y próximamente a iOS.
- Enfoque en mejorar experiencias profesionales mediante guías visuales y menos cambios entre apps.
Preguntas frecuentes (FAQ)
- P: ¿Cuándo estarán disponibles las nuevas funcionalidades para los usuarios? R: El lanzamiento comienza con los Pixel 10 el 28 de agosto, con despliegue a otros Androids en paralelo y llegada a iOS en las próximas semanas. [The Verge AI]
- P: ¿Qué puede hacer Gemini Live con Messages, Phone y Clock? R: Podrá interactuar con esas apps, facilitando tareas como redactar un mensaje mientras se discuten direcciones, entre otras acciones entre apps. [The Verge AI]
- P: ¿Cómo funciona la guía visual? R: Al compartir la cámara, Gemini Live puede resaltar elementos en la pantalla para ayudar a identificar el objeto o la herramienta adecuada. [The Verge AI]
- P: ¿Cambió el modelo de voz? R: Sí, hay un modelo de voz actualizado que mejora entonación, ritmo y tono, con posibilidad de ajustar tono y velocidad y adoptar acentos para narraciones. [The Verge AI]
- P: ¿El despliegue estará disponible en todas las plataformas? R: Es un despliegue por fases: Pixel 10 al lanzamiento, luego Android y, finalmente, iOS en las próximas semanas. [The Verge AI]
Referencias
More news
Primer vistazo a la app Google Home impulsada por Gemini
The Verge informa que Google está actualizando la app Google Home para traer Gemini, con una barra de búsqueda Ask Home, un rediseño de la interfaz y controles por voz para el hogar.
Las demostraciones fallidas de las gafas inteligentes con Live AI de Meta no tenían que ver con el Wi‑Fi, dice el CTO
Las demostraciones en vivo de las gafas Ray‑Ban con Live AI de Meta presentaron fallos vergonzosos. El CTO Andrew Bosworth explica las causas, entre ellas un tráfico autoimpuesto y un fallo raro de llamada, y señala que el fallo ya está corregido.
OpenAI desarrolla supuesto altavoz inteligente, gafas, grabadora y pin con Jony Ive
OpenAI exploraría una familia de dispositivos IA con el ex director de diseño de Apple, Jony Ive, que incluiría un altavoz inteligente sin pantalla, gafas, una grabadora y un pin wearable, con previsión de lanzamiento para finales de 2026 o principios de 2027.
Shadow Leak muestra cómo los agentes de ChatGPT pueden exfiltrar datos de Gmail mediante inyección de prompts
Investigadores de seguridad demostraron un ataque de inyección de prompts llamado Shadow Leak, que utilizó Deep Research de ChatGPT para exfiltrar datos de una bandeja de Gmail. OpenAI parcheó la falla; el caso subraya los riesgos de la IA con agentes.
Google amplía Gemini en Chrome con lanzamiento multiplataforma y sin cuota
Gemini IA en Chrome accede a pestañas, historial y propiedades de Google, se despliega en Mac y Windows en EE. UU. sin costo y permite automatización de tareas e integraciones con Workspace.
James Cameron sobre IA y Realidad Mixta: una visión centrada en el marco para 3D en Quest
James Cameron y el CTO de Meta, Andrew Bosworth, analizan producción estereoscópica, el marco como herramienta narrativa y cómo la IA generativa podría ampliar el cine sin reemplazar a los artistas, junto con un primer avance de Avatar 3 en Horizon TV.