Gemini Live de Google ajoute une guidance visuelle à l’écran, des actions inter-apps et des améliorations vocales
Sources: https://www.theverge.com/news/763114/google-gemini-live-ai-visual-guidance-speech-update
TL;DR
- Gemini Live affichera des surlignages sur l’écran pendant le partage de votre caméra, commencé par les appareils Pixel 10 le 28 août et déployé sur d’autres appareils Android avant d’atteindre iOS dans les semaines à venir. The Verge AI
- De nouvelles intégrations permettront à Gemini Live d’interagir avec Messages, Phone et Clock, facilitant des flux de travail comme la rédaction d’un message pendant une discussion sur des directions. [The Verge AI]
- Un modèle audio mis à jour améliorera l’utilisation des éléments de la parole humaine (intonation, rythme, pitch), avec des options pour modifier le ton et la vitesse, et même adopter des accents pour des récits. [The Verge AI]
- Google présente ces mises à jour dans le cadre d’un déploiement plus large lié au lancement des Pixel 10, avec un support sur Android et une extension prochaine sur iOS. [The Verge AI]
Contexte et contexte historique
Gemini Live est l’assistant IA en temps réel de Google, conçu pour fonctionner sur plusieurs appareils et applications. Les nouvelles fonctionnalités étendent la capacité de l’assistant à pointer des objets et détails à l’écran pendant que vous partagez des visuels avec son aide. Google présente ces capacités en même temps que le lancement de la gamme Pixel 10, prévu le 28 août. Parallèlement, Google prévoit un déploiement du guidage visuel sur d’autres appareils Android, avec une extension iOS à suivre dans les semaines à venir. Cette démarche illustre l’objectif d’un Gemini Live plus pratique et multi‑modale, au‑delà des simples conversations. [The Verge AI]
Ce qui change pour les utilisateurs
Google décrit un ensemble de fonctionnalités destinées à rendre Gemini Live plus utile lors de conversations en temps réel. L’ajout le plus visible est la capacité de mettre en évidence des éléments directement à l’écran pendant que le flux caméra est actif. Cette capacité sera disponible sur les appareils Pixel 10 lors du lancement, avec un déploiement élargi aux autres Androids en parallèle, puis une extension sur iOS dans les semaines à venir. [The Verge AI]
Ce qui est nouveau
Les mises à jour principale tournent autour de l’orientation visuelle, d’une meilleure intégration avec les apps et d’améliorations de la parole :
- Guides visuels à l’écran : lorsque Gemini Live partage la caméra, il peut surligner des éléments à l’écran pour aider à identifier l’objet ou l’outil correct. Le lancement commence avec la famille Pixel 10 le 28 août et s’étend à d’autres appareils Android en parallèle, puis iOS dans les semaines suivantes. [The Verge AI]
- Intégration avec les apps : Gemini Live pourra interagir avec Messages, Phone et Clock, permettant des flux de travail comme la rédaction d’un message tout en discutant des directions. [The Verge AI]
- Interruption des conversations : les utilisateurs pourront interrompre une discussion en cours pour demander une tâche ou rédiger un message. [The Verge AI]
- Modèle vocal mis à jour : le système améliore l’intonation, le rythme et le pitch, offrant des réponses plus naturelles. [The Verge AI]
- Ton, vitesse et narration : l’assistant peut ajuster le ton selon le sujet, varier la vitesse de parole et même adopter des accents pour des récits plus riches. [The Verge AI]
- Calendrier de disponibilité : le lancement est lié au Pixel 10, prolongé sur Android et arrivera sur iOS dans les semaines à venir. [The Verge AI]
Pourquoi c’est important (impact pour les développeurs/entreprises)
Ces mises à jour présentent des implications importantes pour les développeurs et les entreprises :
- Guidage visuel renforcé pourPlus de précision : les surlignages à l’écran peuvent réduire l’ambiguïté en pointant des objets ou outils précis, accélérant les décisions et l’achèvement des tâches.
- Automatisation et collaboration inter‑apps : permettre à l’assistant d’interagir avec Messages, Phone et Clock facilite des flux de travail multi‑étapes sans changer d’application, potentiellement augmenter la productivité en milieu professionnel.
- Personnalisation à grande échelle : le nouveau modèle vocal et la capacité à moduler le ton, la vitesse et les accents permettent d’adapter les interactions à différents segments d’utilisateurs et contextes, améliorant l’accessibilité et l’engagement.
- Expansion multi‑plates-formes : le déploiement progressif sur Pixel 10, puis sur Android et enfin iOS illustre une approche multiplateforme, importante pour les développeurs qui prévoient d’offrir une expérience homogène entre appareils. [The Verge AI]
Détails techniques ou Mise en œuvre
D’un point de vue technique, les mises à jour indiquent plusieurs choix d’intégration et de conception UX :
- Pipeline d’orientation visuelle : le système peut superposer des surlignages sur l’écran lors du partage de caméra. Le comportement est lié à la famille Pixel 10 et sera étendu à d’autres Androids en parallèle, avec iOS à suivre. Cela suggère une stratégie de fonctionnalité par drapeau et une couche UI qui synchronise le partage caméra avec les indices visuels. [The Verge AI]
- Surface d’intégration avec les apps : l’idée que Gemini Live interagisse avec Messages, Phone et Clock implique une API permettant à l’assistant d’initier des actions dans ces apps durant une conversation. Le déploiement se focalise sur Android, mais le design pointe vers des extensions futures pour d’autres apps. [The Verge AI]
- Intervention en cours de dialogue : la capacité d’interrompre une conversation en cours indique un modèle de contrôle réactif qui respecte les commandes des utilisateurs pour rediriger les tâches sans réinitialiser le contexte longuement. [The Verge AI]
- Mise à jour du modèle vocal : les améliorations de l’intonation, du rythme et du pitch suggèrent une expérience vocale plus naturelle et expressive. La possibilité d’adopter des accents renforce la personnalisation. [The Verge AI]
- Mécanique de déploiement : le calendrier est aligné sur le lancement du Pixel 10, avec l’extension Android et une arrivée sur iOS dans les semaines à venir. [The Verge AI]
Points clés (takeaways)
- Gemini Live offrira des guides visuels à l’écran pendant le partage de caméra, à partir des Pixel 10 le 28 août.
- L’intégration avec Messages, Phone et Clock élargit les possibilités de tâches directement depuis une conversation.
- Le modèle vocal mis à jour offre une meilleure naturalité avec ton, vitesse et accents possibles.
- Le déploiement suit une approche Android‑first (Pixel 10), puis s’étend à d’autres Androids et, bientôt, à iOS.
- L’objectif est d’améliorer l’expérience professionnelle en réduisant les acrobaties entre apps et en fournissant des guides visuels.
Foire aux questions (FAQ)
- Q : Quand les nouvelles fonctionnalités seront-elles disponibles pour les utilisateurs ? R : Le lancement débute avec les Pixel 10 le 28 août, avec un déploiement sur d’autres Androids en même temps et une extension iOS dans les semaines à venir. [The Verge AI]
- Q : Que peut faire Gemini Live avec Messages, Phone et Clock ? R : L’assistant pourra interagir avec ces apps, facilitant des tâches comme la rédaction d’un message tout en discutant des directions. [The Verge AI]
- Q : Comment fonctionne l’orientation visuelle ? R : Pendant le partage de la caméra, Gemini Live peut surligner des éléments à l’écran pour aider à identifier l’objet ou l’outil adéquat. [The Verge AI]
- Q : Y a-t-il des améliorations vocales ? R : Oui, le modèle audio mis à jour améliore l’intonation, le rythme et le pitch, avec des options pour ajuster le ton et la vitesse, et la possibilité d’adopter des accents pour des récits. [The Verge AI]
- Q : Le déploiement est-il limité à certains devices ? R : Le déploiement suit une approche par étapes : Pixel 10 au lancement, extension Android et arrivée sur iOS dans les semaines à venir. [The Verge AI]
Références
More news
Premier aperçu de l'app Google Home propulsée par Gemini
The Verge rapporte que Google met Gemini dans l'application Google Home avec une refonte majeure et la nouvelle fonction 'Ask Home'.
Shadow Leak montre comment les agents ChatGPT peuvent exfiltrer des données Gmail via injection de prompt
Des chercheurs en sécurité ont démontré une attaque par injection de prompt baptisée Shadow Leak, utilisant Deep Research de ChatGPT pour exfiltrer discrètement des données d'une boîte Gmail. OpenAI a corrigé la faille; l'affaire illustre les risques des IA agentisées.
Les démonstrations ratées des lunettes intelligentes Live AI de Meta n’avaient rien à voir avec le Wi‑Fi, affirme le CTO
Les démonstrations en direct des lunettes Ray‑Ban avec Live AI de Meta ont connu des échecs embarrassants. Le CTO Andrew Bosworth explique les causes, dont un trafic auto-imposé et un bug rare d’appel vidéo, et précise que le bug est corrigé.
OpenAI envisagerait un haut-parleur intelligent, des lunettes, un enregistreur vocal et un pin avec Jony Ive
OpenAI explorerait une famille d'appareils IA avec l'ancien chef du design d'Apple, Jony Ive, incluant un haut-parleur sans écran, des lunettes intelligentes, un enregistreur vocal et un pin portable, avec une sortie visée fin 2026 ou début 2027.
Comment les chatbots et leurs créateurs alimentent la psychose liée à l’IA
Analyse de la psychose liée à l’IA, de la sécurité des adolescents et des questions juridiques à mesure que les chatbots se multiplient, selon les reportages de Kashmir Hill pour The Verge.
Google étend Gemini dans Chrome avec un déploiement multiplateforme et sans abonnement
Gemini IA dans Chrome accède aux onglets, à l’historique et aux propriétés Google, déployé sur Mac et Windows aux États-Unis sans frais, avec automatisation des tâches et intégrations Workspace.