Gemini Live devient plus humain : le guidage audio et visuel natif est disponible sur davantage d'appareils

Après ses débuts sur la série Pixel 10, une fonctionnalité de Gemini Live se prépare à toucher un public beaucoup plus large, en effet ces dernières heures Google a commencé une vaste distribution de la fonction de sortie audio native, conçue pour rendre les conversations avec l’assistant basé sur l’IA plus naturelles, réactives et expressives. Une innovation qui marque une nouvelle étape sur la voie de l’intégration entre langage humain et modèles multimodaux, et qui rejoint le nouveau guide visuel interactif déjà disponible sur Android.

Les conseils audio et visuels natifs de Gemini sont disponibles pour davantage d’utilisateurs

Comme promis lors du lancement du Pixel 10, Gemini Live reçoit enfin de l’audio natif à grande échelle via l’API Flash Live du modèle Gemini 2.5 ; Cette mise à jour permet au système de comprendre et de reproduire des éléments clés de la parole humaine, tels que l’intonation, le rythme et le ton, en adaptant sa voix en fonction du contexte émotionnel de la conversation.

En d’autres termes, si l’utilisateur parle sur un ton stressé ou aborde un sujet sensible, les Gémeaux peuvent répondre avec une voix plus calme et rassurante, créant une interaction plus empathique et cohérente avec l’état d’esprit de l’interlocuteur.

Google prévoyait que cette mise à jour améliorerait considérablement la façon dont Gemini Live utilise les éléments clés du langage humain, et aujourd’hui, cette promesse commence à se concrétiser.

Non seulement plus naturel, mais aussi plus personnalisable : Gemini Live permet désormais de choisir différents accents, d’ajuster la vitesse de la voix et de modifier la cadence des réponses. Ces paramètres restent en vigueur pendant toute la durée de la conversation et peuvent être facilement restaurés en accédant à la transcription du chat en appuyant sur le bouton En direct en haut.

Si vous démarrez une nouvelle session, les commandes reviennent automatiquement aux valeurs par défaut, garantissant un équilibre entre personnalisation et facilité d’utilisation. Pour le moment, la fonctionnalité est déployée auprès de tous les utilisateurs disposant d’un abonnement Google AI Pro.

En plus de l’audio, Google étend la disponibilité du guidage visuel contextuel, également introduit avec le Pixel 10 ; c’est un système qui permet à Gemini de mettre en évidence des objets dans le monde réel lorsque l’utilisateur utilise des commandes telles que montre-moi ou Où.

L’interface se manifeste par un cadre arrondi et un effet de focus animé, qui adoucit l’arrière-plan et met en valeur ce que l’assistant reconnaît. C’est une fonctionnalité utile en particulier dans les scénarios quotidiens, de la recherche d’un objet dans la maison à l’indication visuelle d’un produit ou d’un lieu, et contrairement à l’audio natif, elle est également disponible pour les comptes gratuits.

Enfin, la dernière mise à jour apporte également une petite innovation graphique, le menu Compte Google au format plein écranmaintenant disponible dans l’application Gemini ; à l’instar de ce qui se passe déjà dans l’application Google classique, tout l’écran est dédié aux informations et paramètres du compte, accessibles simplement en faisant défiler vers le bas.

La mise en œuvre de l’audio natif et des réponses expressives marque une étape importante pour Gemini Live, l’objectif n’est pas seulement de comprendre les mots, mais aussi de comprendre comment ils sont prononcés ; une direction qui rapproche l’assistant virtuel de Google d’une forme d’interaction plus humaine, où le ton et le rythme comptent autant que le contenu.