Dans la foulée de DALL-E 2 d'Open AI ou, dans un autre style, XiaoIce de Microsoft, le couple texte-image est à l'honneur actuellement, servi par des algorithmes d'intelligence artificielle (IA) assez surprenants. C'est le cas d'Imagen, un nouveau projet de Google qui créé des images à partir de textes descriptifs...
Connaissez-vous Imagen ? Il s'agit d'un projet de R&D de Google qui permet, sur la base d'un descriptif prenant en compte un certain nombre de notions, de créer des images représentatives de cette source d'informations.
Voici ce qui est expliqué sur le site officiel : Imagen est « un modèle de diffusion texte-image avec un degré de photoréalisme sans précédent et un niveau profond de compréhension du langage. Imagen s'appuie sur la puissance des grands modèles de langage transformateurs pour la compréhension du texte et sur la force des modèles de diffusion pour la génération d'images haute-fidélité. Notre principale découverte est que les grands modèles de langage génériques (par exemple T5), pré-entraînés sur des corpus de texte uniquement, sont étonnamment efficaces pour coder le texte pour la synthèse d'images : l'augmentation de la taille du modèle de langage dans Imagen améliore à la fois la fidélité de l'échantillon et l'alignement image-texte beaucoup plus que l'augmentation de la taille du modèle de diffusion d'image. Imagen obtient un nouveau score FID de pointe de 7,27 sur le jeu de données COCO, sans jamais s'entraîner sur COCO, et les évaluateurs humains trouvent que les échantillons d'Imagen sont équivalents aux données COCO elles-mêmes en matière d'alignement image-texte. Pour évaluer les modèles texte-image de manière plus approfondie, nous présentons DrawBench, une référence complète et stimulante pour les modèles texte-image. Grâce à DrawBench, nous comparons Imagen à des méthodes récentes, notamment VQ-GAN+CLIP, les modèles de diffusion latente et DALL-E 2, et nous constatons que les évaluateurs humains préfèrent Imagen aux autres modèles dans les comparaisons côte à côte, tant en termes de qualité des échantillons que d'alignement image-texte. »
Un système encore très basique et peu utilisable
Pour l'instant, le système est assez basique et ne permet que de créer des images répondant à certains critères choisis dans une liste prédéterminée. En voici quelques exemples en images, avec en-dessous le texte qui a permis de les créer :
A majestic oil painting of a raccoon Queen wearing red French royal gown. The painting is hanging on an ornate wall decorated with wallpaper (Une majestueuse peinture à l'huile d'une reine raton laveur portant une robe royale française rouge. La peinture est accrochée sur un mur orné de papier peint.). Source : Imagen
A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones (Une statue en marbre d'un DJ Koala devant une statue en marbre d'une table tournante. Le Koala porte un grand casque en marbre.). Source : Imagen
A bucket bag made of blue suede. The bag is decorated with intricate golden paisley patterns. The handle of the bag is made of rubies and pearls (Un sac seau en daim bleu. Le sac est décoré de motifs cachemire dorés complexes. L'anse du sac est faite de rubis et de perles.). Source : Imagen
A giant cobra snake on a farm. The snake is made out of corn (Un serpent cobra géant dans une ferme. Le serpent est fait de maïs). Source : Imagen
Vous voyez le concept ? Bon, évidemment, il s'agit d'exemples de démo un peu délirant à dessein, car il y a fort à parier que vous n'aurez que très rarement des besoins pour ce type d'images dans la vraie vie… 🙂
Ce qui est plus intéressant est d'imaginer ce qu'il est possible de faire par la suite, en termes d'illustrations (notamment dans le domaine de l'animation et de la publicité, par exemple, mais pas que) lorsque ces algorithmes auront évolué et pourront être utilisés en vraie grandeur.
Peut-être même que le SEO pourra s'y immiscer et tenter de comprendre comment certaines images ont été créées, afin de tenter de se positionner avec le même texte de départ. Une sorte de « reverse engeering » en mode metaverse ? Allez savoir quelle sera l'évolution du SEO dans les années à venir ? Des outils à suivre en tout cas, pour leurs promesses tout comme pour les débordements possibles qu'ils peuvent générer...