Google Gemini ahora lee tus Google Docs en voz alta con voces personalizables
Sources: https://www.theverge.com/news/761920/google-docs-gemini-ai-read-aloud, theverge.com
TL;DR
- Google Docs puede generar una versión de audio de un documento mediante IA Gemini.
- Los usuarios pueden personalizar la voz de Gemini y la velocidad de lectura.
- Los lectores pueden acceder al audio generado por IA de documentos compartidos a través de Tools > Audio > Listen to this tab, y los autores pueden añadir un botón de audio personalizable con Insert > Audio.
- La función está limitada a inglés y a escritorio por ahora, con despliegue para clientes de Workspace en planes de negocio, enterprise o educación, así como para suscripciones AI Pro y Ultra.
- Google anunció en abril planes para convertir documentos en podcasts de IA; este lanzamiento enfatiza escuchar directamente el contenido escrito en Docs.
Contexto y antecedentes
The Verge reportó que los usuarios de Google Docs ahora pueden generar una versión en audio de un documento usando Gemini. La función amplía las capacidades de Google Docs al permitir al creador personalizar la salida de audio de IA mediante diferentes voces y velocidades de habla. En documentos compartidos, los lectores pueden acceder al audio seleccionando Tools > Audio > Listen to this tab. Los autores también pueden insertar un botón de audio directamente en el documento mediante Insert > Audio, dando a los lectores una forma rápida de comenzar a escuchar. El despliegue se alinea con anuncios anteriores de Google sobre convertir documentos en podcasts de IA, pero en esta etapa parece centrado en convertir texto escrito en audio utilizable en lugar de un flujo de podcast más amplio. The Verge señala que esta herramienta es práctica para escuchar lo que has escrito o lo que se ha compartido contigo.
Qué hay de nuevo
Las principales novedades incluyen:
- Generación de audio de documentos de Google Docs mediante IA Gemini.
- Salida de audio personalizable: opción para ajustar voz y velocidad de lectura.
- Acceso para lectores a contenidos de documentos compartidos en audio.
- Integración de audio en el propio documento: los autores pueden insertar un botón de audio personalizable para iniciar la reproducción.
- Alcance actual: salida en inglés y en dispositivos de escritorio.
- Disponibilidad para clientes de Google Workspace en planes de negocios, enterprise o educación, así como para usuarios con suscripciones AI Pro y Ultra.
Acceso y controles en el documento
Para permitir que los lectores escuchen, los usuarios en planes compatibles pueden abrir Tools > Audio > Listen to this tab en un documento compartido. Si el autor desea ofrecer un control de audio dentro del documento, puede elegir Insert > Audio para añadir un botón de audio personalizable. Los lectores pueden hacer clic en el botón para comenzar la narración IA. Si está disponible, personaliza la voz de Gemini y ajusta la velocidad de lectura según las preferencias.
Tabla de capacidades y limitaciones
| Función | Detalles |
|---|---|
| Idioma soportado | Inglés únicamente |
| Plataforma | Dispositivos de escritorio únicamente |
| Acceso del lector a documentos compartidos | Tools > Audio > Listen to this tab |
| Control de audio en el documento | Insert > Audio |
| Disponibilidad por plan | Workspace (business, enterprise, educación); AI Pro y Ultra |
Por qué importa (impacto para desarrolladores/empresas)
Para organizaciones y desarrolladores que trabajan con flujos de trabajo de gestión de documentos, la capacidad de convertir contenido escrito en audio dentro de Google Docs ofrece una nueva forma de consumir información. Las empresas que dependen de Docs para la colaboración pueden disponer de una opción para entregar contenido en formato de audio a equipos, aprendices o trabajadores remotos sin salir de Docs. El despliegue para planes específicos de Workspace y para suscripciones centradas en IA sugiere la intención de Google de integrar experiencias de audio en flujos de productividad. La posibilidad de personalizar la voz y la velocidad de lectura puede reducir barreras de accesibilidad y adaptar la experiencia de escucha a las preferencias de los usuarios. Aunque actualmente la salida es en inglés y solo para escritorio, esto sienta las bases para futuras expansiones de idioma y plataforma.
Detalles técnicos o Implementación
La funcionalidad se apoya en Gemini, el asistente de IA de Google, para sintetizar audio a partir del contenido del documento. Los autores pueden añadir un botón de audio personalizable mediante Insert > Audio, permitiendo que los lectores reproduzan la narración IA directamente en el documento. Para los lectores, el audio está disponible a través de Tools > Audio > Listen to this tab en un documento compartido. Las restricciones actuales especifican salida en inglés y solo en dispositivos de escritorio; Google dirige el despliegue a clientes de Workspace con planes business, enterprise o education y a usuarios con suscripciones AI Pro y Ultra. No se proporcionan detalles sobre la cadena de producción de audio, opciones de voz o controles de velocidad, pero el objetivo es ofrecer flexibilidad y facilidad de uso dentro de la interfaz de Docs.
Pasos para usar la función (resumen)
- Abra un Google Doc en un entorno de escritorio compatible.
- Para lectores de un documento compartido, vaya a Tools > Audio > Listen to this tab para escuchar.
- Para creadores, inserte un botón de audio con Insert > Audio para proporcionar una experiencia de escucha dentro del documento.
- Si está disponible, personalice la voz de Gemini y ajuste la velocidad de lectura a su preferencia.
Conclusión y puntos clave
- La generación de audio IA amplía Google Docs más allá de la lectura para permitir escuchar contenido.
- Gemini ofrece voces personalizables y velocidad de lectura ajustable.
- Los caminos de acceso para lectores y autores difieren: Tools > Audio para oyentes; Insert > Audio para autores.
- Las limitaciones actuales incluyen inglés únicamente y disponibilidad para escritorio, con despliegue para planes Workspace y suscripciones IA.
- Este enfoque se alinea con ideas previas de podcasts IA, enfocándose en escuchar contenido escrito de forma práctica.
FAQ
-
¿Qué es esta función?
Genera una versión de audio de un documento Google Docs usando IA Gemini.
-
¿Cómo acceden los lectores al audio?
En un documento compartido, yendo a Tools > Audio > Listen to this tab para escuchar.
-
-
-
Referencias
- The Verge: https://www.theverge.com/news/761920/google-docs-gemini-ai-read-aloud
- The Verge (afiraciones citadas): Google Docs ahora puede generar una versión de audio de un documento con IA; autores pueden añadir un botón de audio personalizable con Insert > Audio; lectores pueden acceder al audio vía Tools > Audio > Listen to this tab. https://www.theverge.com/news/761920/google-docs-gemini-ai-read-aloud
More news
Primer vistazo a la app Google Home impulsada por Gemini
The Verge informa que Google está actualizando la app Google Home para traer Gemini, con una barra de búsqueda Ask Home, un rediseño de la interfaz y controles por voz para el hogar.
Las demostraciones fallidas de las gafas inteligentes con Live AI de Meta no tenían que ver con el Wi‑Fi, dice el CTO
Las demostraciones en vivo de las gafas Ray‑Ban con Live AI de Meta presentaron fallos vergonzosos. El CTO Andrew Bosworth explica las causas, entre ellas un tráfico autoimpuesto y un fallo raro de llamada, y señala que el fallo ya está corregido.
OpenAI desarrolla supuesto altavoz inteligente, gafas, grabadora y pin con Jony Ive
OpenAI exploraría una familia de dispositivos IA con el ex director de diseño de Apple, Jony Ive, que incluiría un altavoz inteligente sin pantalla, gafas, una grabadora y un pin wearable, con previsión de lanzamiento para finales de 2026 o principios de 2027.
Shadow Leak muestra cómo los agentes de ChatGPT pueden exfiltrar datos de Gmail mediante inyección de prompts
Investigadores de seguridad demostraron un ataque de inyección de prompts llamado Shadow Leak, que utilizó Deep Research de ChatGPT para exfiltrar datos de una bandeja de Gmail. OpenAI parcheó la falla; el caso subraya los riesgos de la IA con agentes.
Google amplía Gemini en Chrome con lanzamiento multiplataforma y sin cuota
Gemini IA en Chrome accede a pestañas, historial y propiedades de Google, se despliega en Mac y Windows en EE. UU. sin costo y permite automatización de tareas e integraciones con Workspace.
James Cameron sobre IA y Realidad Mixta: una visión centrada en el marco para 3D en Quest
James Cameron y el CTO de Meta, Andrew Bosworth, analizan producción estereoscópica, el marco como herramienta narrativa y cómo la IA generativa podría ampliar el cine sin reemplazar a los artistas, junto con un primer avance de Avatar 3 en Horizon TV.