Voici quelques suggestions pour tirer le meilleur parti des nouvelles des Gémeaux dans la génération d'images

Il y a quelques heures, Google a annoncé l’arrivée de plusieurs améliorations pour la modification et la génération d’images avec l’intelligence artificielle des Gémeaux. La mise à jour comprenait des étapes comprenant la cohérence des sujets inclus et au-delà, et grâce à un nouvel article sur son blog officiel, Google a fourni quelques suggestions pour tirer le meilleur parti des nouvelles.

Google fournit des suggestions pour profiter des nouveautés des Gémeaux

Hier, Google a lancé un modèle renouvelé de génération et de modification des images conçues pour l’application Gemini, pour l’étude et pour le sommet AI. Comme nous l’avons vu, la mise à jour a introduit des améliorations significatives dans la cohérence des sujets, un montage plus précis et «familier» et la possibilité de combiner des photos dans des créations complètement nouvelles.

Les Gemeni peuvent préserver l’apparence des personnes et des objets à travers plusieurs générations et changements, peuvent combiner différents éléments, sujets et styles à partir de plus d’idées dans une seule image, peuvent apporter des modifications à des parties spécifiques d’une image avec un langage plus simple, peuvent appliquer un style, une texture ou une conception d’un sujet à un autre, et peut générer des scènes complexes et prédire la prochaine étape dans une séquence.

Grâce au modèle renouvelé, il est possible d’obtenir d’excellents résultats même avec des entrées simples d’une ou deux phrases, mais pour aller au-delà, vous pouvez considérer les suggestions de Google et l’inclusion de nouvelles invites. En particulier, il est préférable de considérer les points suivants:

Sujet: Qui ou quoi représenter dans l’image? Mieux vaut être spécifique tout de suite.
Composition: comment devrait être la photo? Premier étage, grand champ, d’en bas, portrait, etc. etc.
Action: Que se passe-t-il dans la scène?
Emplacement: Où se déroule la scène?
Style: Quel est le style esthétique général? Divertissement 3D, film noir, photojournalisme, etc. etc.
Instructions pour la modification: En cas de modifications, mieux vaut être direct et spécifique (par exemple, « Supprimer l’arrière-plan« , Ou »Changez la couleur de la cravate« )

Cinq techniques pour essayer de générer des images

Google continue de révéler cinq techniques à essayer, chacune accompagnée d’un exemple.

Les Gémeaux peuvent maintenir l’apparence d’une personne ou d’un personnage dans des poses, différentes lumières et environnements, et également appliquer le même caractère à de nouveaux styles et surfaces:

Invite 1: Créez une illustration bizarre d’un petit elfe de champignons brillant; L’elfe a un grand chapeau en forme de champignons bioluminescents, de grands yeux et curieux et d’un corps en vitiques tissés;
Prompt 2 (dans la même conversation): Maintenant, il montre le même elfe qui roule un bel escargot recouvert de musc à travers une pelouse ensoleillée pleine de fleurs sauvages colorées.

Grâce aux fonctionnalités mises à jour, des modifications rapides et très précises peuvent être apportées aux photos:

Invite 1: Une photo de haute qualité d’un salon moderne et minimaliste avec un canapé gris, une table basse en bois clair et une grande plante en pot;
Invite 2 (EDIT): Modifie la couleur du canapé avec un bleu marine;
Invite 3 (Modifier): Ajoutez maintenant une pile de trois livres à la table.

Vous pouvez également essayer de fusionner deux idées ou plus dans une seule image: demandez simplement aux Gémeaux de créer deux images et de combiner leurs sujets et environnements de diverses manières:

Invite 1: génère une image photojournaliste d’un astronaute avec un casque et un costume complet;
Invite 2: génère l’image d’un terrain de basket envahi par la végétation dans la forêt tropicale;
Invite 3: montre l’astronaute qui fait un écrasement avec une balle de basket dans ce champ.

Vous pouvez ensuite changer complètement l’atmosphère et l’esthétique d’une image en appliquant un nouveau style, une nouvelle palette de couleurs ou une nouvelle texture, en gardant le sujet original intact:

Invite 1: une image photojournaliste d’une moto vintage garée sur une route de la ville;
Invite 2: Appliquez le style d’une conception architecturale à cette image.

Le cinquième et dernier exemple exploite les compétences de raisonnement de Gemini. Vous pouvez fournir une scène simple et laisser l’IA développer ses détails:

Invite 1: génère l’image d’une personne debout tenant un gâteau à trois étages à la main;
Invite 2: génère une image qui montre ce qui se passerait si elle trébuchait.

Malgré les progrès, certains domaines nécessitent encore des améliorations. Google prévient que la stylisation du modèle peut parfois être incohérente ou produire des résultats inattendus; De plus, le modèle pourrait faire des erreurs dans l’orthographe ou avoir des difficultés avec une typographie complexe, ou il peut toujours ne pas être en mesure de maintenir la cohérence dans l’aspect des sujets. Enfin, le modèle peut avoir du mal à maintenir les proportions. Big G dit qu’il travaille également pour s’améliorer dans ces aspects.

Avez-vous déjà essayé d’utiliser les compétences renouvelées de Gemini dans la génération et la modification des images? Comment ça s’est passé?