Google Whisk permet de générer des images sans prompt, et c’est assez rigolo
Par Vincent Lautier - Publié le
Google vient de lancer Whisk, un nouvel outil d’IA expérimenté via Google Labs. Contrairement aux générateurs d’images traditionnels, Whisk ne se repose pas uniquement sur des descriptions textuelles. Ici, ce sont vos propres images qui servent de prompts pour générer un visuel inédit. Vous pouvez ajouter plusieurs visuels pour définir un sujet, une scène et un style, puis laisser l’IA faire le reste.
L’idée derrière Whisk est claire : vous faciliter la tâche. Pas besoin de rédiger des prompts interminables ; il suffit d’importer des visuels ou même d’utiliser ceux suggérés par Google. Vous pouvez également affiner le résultat avec un peu de texte supplémentaire si besoin, mais ce n’est pas obligatoire. Une fois l’image générée, il est possible de l’éditer en ajustant les prompts ou plus de détails.
Whisk utilise deux technologies de Google : Gemini et Imagen 3. Premièrement, Gemini, le modèle de langage IA, analyse vos images et produit des descriptions détaillées sous forme de texte. Ces descriptions sont ensuite transmises à Imagen 3, le modèle de génération d’images, qui produit un visuel basé sur ces informations. Mais attention, Whisk ne recrée pas l’image exacte. Il s’en inspire pour générer une création qui en capture l’essence. Mes tests confirment, j’ai utilisé une photo de moi, et au final ça n’est pas vraiment moi sur les résultats.
Concrètement, si vous chargez une photo de chat, une scène de plage et une illustration style bande dessinée, vous obtiendrez un visuel inspiré de ces trois éléments. J’ai testé avec une chaise, une photo de moi, et un nuage, ça m’a rendu un truc assez cohérent, même si je ne vois pas trop ce que je vais bien pouvoir faire d’un tel visuel.
Google le dit lui-même : Whisk est conçu pour le brainstorming rapide, pas pour des créations finales prêtes à l’usage. Les visuels générés peuvent manquer de précision ou de logique. C’est surtout un outil pour tester des idées, explorer des styles ou créer des visuels « bruts » en quelques secondes.
Côté fonctionnalités, l’interface propose trois styles pré-définis : sticker, pin’s émaillé et peluche. Un mode avancé permet d’aller plus loin avec des ajouts textuels pour ajuster les résultats. Pour le moment, les possibilités restent limitées, ce qui est logique vu qu’il s’agit d’une expérimentation.
Whisk est accessible uniquement aux États-Unis pour l’instant, via Google Labs, mais il fonctionne sans problème avec votre VPN habituel, et votre compte Google, même créé en France. L’outil est gratuit, et les utilisateurs peuvent télécharger leurs créations directement. Google compte sur les premiers retours pour affiner Whisk et, potentiellement, en élargir les fonctionnalités dans le futur.
Comment ça marche ?
L’idée derrière Whisk est claire : vous faciliter la tâche. Pas besoin de rédiger des prompts interminables ; il suffit d’importer des visuels ou même d’utiliser ceux suggérés par Google. Vous pouvez également affiner le résultat avec un peu de texte supplémentaire si besoin, mais ce n’est pas obligatoire. Une fois l’image générée, il est possible de l’éditer en ajustant les prompts ou plus de détails.
Technologies utilisées
Whisk utilise deux technologies de Google : Gemini et Imagen 3. Premièrement, Gemini, le modèle de langage IA, analyse vos images et produit des descriptions détaillées sous forme de texte. Ces descriptions sont ensuite transmises à Imagen 3, le modèle de génération d’images, qui produit un visuel basé sur ces informations. Mais attention, Whisk ne recrée pas l’image exacte. Il s’en inspire pour générer une création qui en capture l’essence. Mes tests confirment, j’ai utilisé une photo de moi, et au final ça n’est pas vraiment moi sur les résultats.
Exemple concret
Concrètement, si vous chargez une photo de chat, une scène de plage et une illustration style bande dessinée, vous obtiendrez un visuel inspiré de ces trois éléments. J’ai testé avec une chaise, une photo de moi, et un nuage, ça m’a rendu un truc assez cohérent, même si je ne vois pas trop ce que je vais bien pouvoir faire d’un tel visuel.
Un outil pour expérimenter, pas pour produire
Google le dit lui-même : Whisk est conçu pour le brainstorming rapide, pas pour des créations finales prêtes à l’usage. Les visuels générés peuvent manquer de précision ou de logique. C’est surtout un outil pour tester des idées, explorer des styles ou créer des visuels « bruts » en quelques secondes.
Côté fonctionnalités, l’interface propose trois styles pré-définis : sticker, pin’s émaillé et peluche. Un mode avancé permet d’aller plus loin avec des ajouts textuels pour ajuster les résultats. Pour le moment, les possibilités restent limitées, ce qui est logique vu qu’il s’agit d’une expérimentation.
Whisk est accessible uniquement aux États-Unis pour l’instant, via Google Labs, mais il fonctionne sans problème avec votre VPN habituel, et votre compte Google, même créé en France. L’outil est gratuit, et les utilisateurs peuvent télécharger leurs créations directement. Google compte sur les premiers retours pour affiner Whisk et, potentiellement, en élargir les fonctionnalités dans le futur.