Gemini sur Android se prépare à comprendre et à analyser les fichiers audio

Google continue de se affiner, de mettre à jour après la mise à jour, l’expérience utilisateur offerte par Gemini sur Android, et selon ce qui est sorti de l’analyse de la version 16.30.59.sa.arm64 de l’application Google, la société serait maintenant à l’œuvre sur une fonctionnalité particulièrement intéressante: la possibilité d’attacher des fichiers audio (comme MP3, WAV et FLAC) dans les discussions avec l’assistant. C’est un ajout que, s’il est confirmé et rendu entièrement opérationnel, pourrait représenter un autre tournant dans la façon dont les utilisateurs interagissent avec l’IA générative sur leur smartphone.

À l’avenir, vous pouvez fournir des fichiers audio à l’application Gemini pour Android à analyser

Selon ce qui a émergé, la nouvelle mise à jour bêta comprend une fonction cachée qui vous permet de joindre un fichier audio à l’intérieur du chat avec Gemini, une fois qu’un fichier est téléchargé un message contextuel apparaît Parler en directce qui suggère l’intention de démarrer une interaction dynamique entre l’utilisateur et l’IA sur la base de l’audio fourni.

À l’heure actuelle, cependant, la fonction semble toujours incomplète ou ne fonctionne pas, Gemini Bien que l’affichage de l’interface correcte ne développe pas les fichiers audio de manière cohérente; Dans certains cas, cela les ignore complètement, dans d’autres, il essaie une réponse aléatoire, finissant par produire des résultats complètement déconnectés du contenu réel. Rien de nouveau pour ceux qui connaissent les limites actuelles des modèles linguistiques, mais il est clair que le soutien complet est encore loin de la communication publique.

Bien que l’application Android ne montre que des indices partiels, l’élaboration des fichiers audio par Gemini est déjà une réalité à un niveau technique, en fait, l’IA de Google prend en charge l’entrée audio via l’API et peut transcrire ce qui est dit, décrire les sons, résumer des fichiers audio entiers, identifier et retourner le contenu à partir de temporisations précises.

Il est donc légitime d’imaginer que cette capacité est également étendue à l’application mobile, où aujourd’hui il est déjà possible d’attacher des images et de recevoir une suppression contextuelle; La prise en charge de l’audio serait, à partir de ce point de vue, l’étape naturelle ultérieure dans le chemin de l’intégration multimodale de l’IA dans le système Android.

Cependant, comme cela arrive souvent avec les fonctionnalités découvertes par le démontage d’APK, il n’y a aucune garantie sur la version finale, il pourrait arriver dans les prochains mois, pour être modifié ou rester une expérience interne simple, mais le fait que Google travaille activement dans cette direction est important en soi, en particulier si nous considérons les mouvements parallèles d’autres acteurs du secteur.

La possibilité d’envoyer un fichier audio et de demander aux Gémeaux de le transcrire, de l’analyser ou d’en parler des vies, il ouvre des scénarios d’utilisation extrêmement intéressants, en particulier en mouvement; De la gestion des longs messages vocaux (ou de la clarté douteuse) à la transcription des notes, en passant par l’analyse des entretiens ou du contenu enregistré, une approche qui pourrait simplifier davantage l’interaction avec l’IA, la rendant plus naturelle et adhérant aux besoins réels des utilisateurs.

Bien que la fonction soit toujours en phase embryonnaire, la prise en charge des fichiers audio dans Gemini pour Android représente une pièce importante dans le chemin évolutif de l’assistant IA de Google; Après intégration avec le chargement des images et des réponses contextuelles visuelles, l’écoute active de l’audio pourrait transformer l’application en un outil encore plus complet, capable de répondre littéralement à toute entrée.