Ce qu’il faut savoir sur DALL-E Mini, le générateur d’images basé sur l’IA

22 septembre 2022 | Rachael Roth

Conçue pour créer des images réalistes à partir d’un simple texte saisi par l’utilisateur, l’intelligence artificielle DALL-E a le potentiel de changer l’avenir du Web, en mieux ou en pire.

Vous avez probablement vu ces derniers mois, sans forcément vous en rendre compte, des publications en ligne créées par DALL-E Mini. Il s’agit d’une grille composée de neuf images et accompagnée d’une légende comme « le Démogorgon de Stranger Things tenant un ballon de basket. » Alimenté par intelligence artificielle (IA), cet outil qui génère des images à partir de textes saisis par les utilisateurs est open source, c’est-à-dire utilisable et modifiable par tous. Créé par le développeur Boris Dayma, DALL-E Mini se veut une version de l’outil DALL-E développé en 2021 par OpenAI, une entreprise de recherche en intelligence artificielle.

https://twitter.com/weirddalle/status/1534549407537963010?cxt=HHwWhICx6cij6MsqAAAA

Le modèle de Dayma est impressionnant : l’exemple du Démogorgon illustre parfaitement la précision avec laquelle l’outil peut donner vie aux fruits de notre imagination. D’autres exemples, en revanche, démontrent que le programme a ses limites. Au premier coup d’œil, les images peuvent sembler crédibles, mais inspectées de plus près, les formes et les couleurs sont plutôt floues, inhabituelles, à l’instar d’un tableau de Monet. Le compte Twitter Weird DALL-E Mini Generations (qui compte déjà plus d’un million d’abonnés), recense les exemples les plus dérangeants comme cette représentation cauchemardesque de Jack Black lors d’une cérémonie d’investiture.

Les images créées avec DALL-E Mini arborent une qualité inférieure à celle proposée par l’outil DALL-E d’OpenAI. Par ailleurs, DALL-E Mini a été créé à l’aide de ressources matérielles plus modestes et nécessite moins de ressources GPU (unité de traitement graphique), ce qui le rend utilisable par tous, et ce en quelques minutes seulement. Ses limites font que les images ne sont pas encore suffisamment réalistes pour être crédibles.

L’entreprise OpenAI a lancé ce mois-ci son produit destiné au grand public, DALL-E 2, qu’elle rend accessible progressivement à 1 million de personnes inscrites sur sa liste d’attente. À l’instar du DALL-E Mini, ce modèle génère des images à partir de textes en langage naturel. Pratiquement tout texte saisi par l’utilisateur peut être transformé en images réalistes, haute résolution. L’intelligence artificielle DALL-E 2 est conçue selon la méthode CLIP, qui associe légendes et images glanées sur le Web. En plus de créer des images et des œuvres d’art originales, le programme permet de modifier une image existante, déclinée en plusieurs versions. Les seules limites sont notre imagination et notre patience—voir quelques exemples sur le site d’OpenAI.

Pour en savoir plus, n’hésitez pas à regarder cette vidéo explicative proposée par Assembly AI.

L’avertissement DALL-E

Étant donné que les outils DALL-E 2 et DALL-E Mini sont développés à partir d’images et de légendes disponibles sur le Web, certains résultats appellent un avertissement. En dessous du générateur DALL-E Mini, Dayma prévient que les images peuvent « renforcer ou exacerber les préjugés sociétaux » et « qu’étant donné que le modèle a été développé à partir de données non filtrées provenant d’Internet, il est susceptible de générer des images contenant des stéréotypes négatifs sur les minorités. »

Par exemple, comme le souligne le média Futurism, le terme <em>gastroenterologist</em> (gastro-entérologue) génère l’image d’un homme blanc, tandis qu’en saisissant le mot <em>nurse</em> (infirmier ou infirmière en anglais), c’est une femme qui est représentée. Par ailleurs, d’autres saisies ont généré des représentations hypersexualisées de la femme, ainsi que des images qui renforcent les stéréotypes raciaux, selon le magazine Wired.

Le site Web d’OpenAI affiche un avertissement similaire à celui de DALL-E :

« Nous comprenons que le développement de modèles générateurs peut avoir un impact sociétal considérable. Nous prévoyons d’analyser la relation entre les modèles comme DALL-E et des questions sociétales telles que l’impact sur certains métiers et processus de travail, les biais potentiellement présents dans les résultats, ainsi que les défis éthiques à long terme que pose cette technologie. »

OpenAI a mis en place une politique de contenu qui interdit le partage d’images explicites ou offensantes, et garde un œil sur les utilisateurs qui enfreignent ces règles. L’entreprise a récemment déployé, au niveau du système DALL-E 2, une technique pour refléter plus fidèlement la diversité de la population.

Mais quelles autres questions ce puissant générateur texte-image accessible à tous soulève-t-il ?

Éthique et IA

Dans sa Politique de contenu, OpenAI oblige également les utilisateurs qui partagent les images ou les illustrations générées avec DALL-E à préciser qu’elles ont été créées par intelligence artificielle. Bien que les images générées soient la plupart du temps artistiques, et non photoréalistes, le risque qu’elles soient truquées et utilisées à des fins de désinformation est bien réel, d’autant plus que la technologie texte-image progresse à un rythme vertigineux. Bien entendu, des logiciels comme Photoshop existaient déjà, mais DALL-E ne nécessite ni programme ni prise en main pour générer des images convaincantes, et ce en un rien de temps.

On peut aussi s’interroger sur la possibilité pour les acteurs malveillants de reproduire cette technologie afin de la détourner de son usage initial.

Lutter contre la désinformation

Le deepfake est exploité aujourd’hui pour déployer des campagnes de désinformation sur le Web. Cette technologie a tout de même ses limites. Le site TheConversation.com livre ses conseils aux utilisateurs pour détecter un deepfake : mouvement incohérent des lèvres, visages trop lisses, ombres mal positionnées et aspect artificiel des cheveux. Le site encourage également les utilisateurs à prêter attention au contexte d’une vidéo et à exercer leur esprit critique, surtout lorsque le contenu visionné semble improbable. Par ailleurs, différents outils de détection du deepfake sont en cours de développement.

La véracité des informations s’appuyant sur des images générées par IA peut être vérifiée de la même manière. Lorsqu’une photo illustrant un scénario improbable est diffusée massivement sur Twitter et absente des sources d’information fiables, mieux vaut l’inspecter de plus près. De son côté, OpenAI met tout en œuvre pour tenter de limiter les abus. Sa politique est claire :

« Pour réduire le risque d’une mauvaise utilisation de DALL-E dans le but de créer des contenus trompeurs, nous refusons tout téléchargement d’images représentant des visages réalistes ou susceptibles de rappeler des personnalités telles que les célébrités et les grandes figures politiques. Nos techniques avancées empêchent également de générer des représentations photoréalistes de visages de personnes réelles. »

Le document qui explique comment DALL-E 2 a été créé est accessible au grand public, ce qui veut dire que DALL-E peut être reproduit sans les filets de sécurité mis en place par OpenAI pour lutter contre la désinformation et la diffusion d’images préjudiciables.

Pour l’instant, c’est un outil fascinant qui démontre le potentiel de l’IA et permet de s’émerveiller. Rappelez-vous qu’il ne faut pas croire tout ce qui circule sur le Web.

Vous souhaitez mieux vous protéger en ligne ? Commencez par les bases.

Découvrez les 6 mesures essentielles pour assurer votre cybersécurité.

Inscrivez-vous pour connaître toute l'actualité de Dashlane

AI artificial intelligence DALL-E DALL-E IA intelligence artificielle

Rachael Roth

Rachael Roth is a content creator with over a decade of experience in print and digital media. She is a longtime contributing writer for Dashlane's blog and is an Editor and Copywriter for NYC & Company, New York City’s CVB and marketing organization.