Un Docteur vietnamien utilise l’IA pour transformer du texte en image

Le Dr. Luong Minh Thang et dix experts de Google Brain, un programme de recherche en intelligence artificielle conduit par Google, ont conçu le modèle Parti.
Un Docteur vietnamien utilise l’IA pour transformer du texte en image ảnh 1Le Dr. Luong Minh Thang.



Hanoï (VNA) - Le Dr. Luong Minh Thang et dix experts de Google Brain, un programme de recherche en intelligence artificielle conduit par Google, ont conçu le modèle Parti, qui a la capacité de générer des images à partir de commandes textuelles.

Le Dr. Luong Minh Thang, 34 ans, est le seul Vietnamien du groupe de recherche clé sur le modèle d’intelligence artificielle (IA) Parti (Pathways Autoregressive Text-to-Image). Ce travail a été dévoilé en 2021 par Google.

Le langage est l’un des éléments fondamentaux de la communication humaine, et c’est grâce à la meilleure compréhension de celui-ci que l’IA Parti obtient de si bons résultats dans la création d’images à partir de textes. Grâce à elle, les utilisateurs peuvent désormais transformer leurs propres idées créatives en image. “C’est un grand progrès réalisé grâce à l’IA”, a estimé M. Thang.

Progrès technologique

Il a partagé que les modèles d’IA actuels sont appliqués dans les langages via des modèles de chatbot capables d’interagir avec l’Homme par messages textuels. Dans le domaine des images, l’IA peut reconnaître des objets dans les images. “Si nous combinons ces deux éléments pour transformer le langage textuel en images, cela créera un modèle d’IA très moderne, pouvant soutenir efficacement les personnes dans le domaine de la création d’images”, a-t-il souligné, en parlant de la raison pour laquelle le modèle Parti a été créé.

Le générateur Parti permet de créer des images exactement telles que décrites et souhaitées par l’utilisateur. Dans l’avenir, il sera un outil efficace pour les personnes spécialisées dans la création d’images telles que les artistes, photographes, créateurs de mode, graphistes, etc. Lorsqu’elles auront des idées, il leur suffira de décrire celle-ci de manière suffisamment détaillée, et l’IA fera le reste.

L’IA Parti commence par convertir une collection d’images en une séquence d’entrées de code, semblables à des pièces de puzzle. La commande textuelle de l’utilisateur est ensuite traduite à l’aide de ces séquences de code, créant une nouvelle image. Ceci est important pour l’approche car cela facilite le traitement des commandes longues et complexes. Il aide également à la création d’images de haute qualité. Ce modèle intègre et représente graphiquement des informations globales de manière efficace. D’autant plus qu’il rend des images hyperréalistes à partir des entrées textuelles à l’aide d’un encodeur-décodeur pouvant contenir jusqu’à 20 milliards de paramètres.

“Sur la base de données textuelles et d’images, l’IA se combinera pour créer une nouvelle photo, aidant les gens à avoir de nouvelles idées”, a dévoilé M. Thang.

Les sujets les plus représentés par le modèle Parti sont la nature, les animaux, les objets... Sur le site de Google Research, on trouve de nombreuses images créées à partir d’IA et pouvant passer pour de vraies photos.

Selon l’équipe de recherche, les images liées aux personnes sont soigneusement manipulées par l’équipe : il faut absolument éviter d’affecter négativement les communautés en termes de sexe, d’ethnie, de religion, etc. en les stigmatisant ou en reproduisant des stéréotypes.

Opportunités et risques

L’inconvénient actuel est qu’avec des documents trop longs, apportant trop de détails ou décrivant des images contradictoires (comme une mer à côté d’un désert), l’IA peut mal interpréter, voire ne donner aucun résultat.

Le Dr. Thang a déclaré qu’à l’avenir, l’équipe surmontera cette limitation pour concevoir un modèle d’IA plus complet. L’équipe a envisagé de former l’IA afin qu’elle puisse éditer des images à la demande correspondant au mieux aux textes des utilisateurs, mais aussi rechercher et créer des vidéos à partir de nombreuses photos au contenu similaire.

Aujourd’hui, les modèles texte-image, dont Parti, présentent de nombreuses opportunités mais également des risques, notamment la reproduction de biais et de stéréotypes dans l’ensembles de données d’IA, ou le détournement de l’outil pour la génération de deep fakes avec des conséquences notables pour la sécurité, la communication visuelle, la désinformation, la créativité et l’art. Face à cette situation, le géant technologique américain Google n’a pas utilisé de texte rendu public pour la formation de l’IA. Il a aussi choisi de ne divulguer aucun des modèles, données ou codes de Parti pour des raisons de sécurité, et ce jusqu’à ce que des mesures de protection supplémentaires soient en place.

Luong Minh Thang était ancien élève en mathématiques du Lycée pour surdoués de l’Université nationale du Vietnam à Hô Chi Minh-Ville (VNU-HCM High School for the Gifted). Après avoir obtenu son bac, il a étudié l’informatique à l’Université nationale de Singapour. En 2011, il a obtenu une bourse de doctorat à l’Université de Stanford (États-Unis). En septembre 2016, il a officiellement travaillé chez Google Brain avec une expertise en apprentissage automatique et en traitement du langage naturel.-CVN/VNA

Voir plus

Placer la science, la technologie et l'innovation au cœur du processus de développement national

Placer la science, la technologie et l'innovation au cœur du processus de développement national

Dans le cadre de l’industrialisation et de la modernisation du pays, notre Parti a toujours affirmé de manière cohérente que la science et la technologie constituent une priorité nationale, étant un moteur essentiel pour promouvoir un développement rapide et durable. La Résolution n°57-NQ/TW marque une étape stratégique, réaffirmant le rôle clé de la science, de la technologie et de l’innovation dans le développement socio-économique du Vietnam.

Le vice-Premier ministre Nguyen Chi Dung et Nguyen Truong Son, président du Fonds d'éducation et de formation Bao Son, président du groupe Bao Son prennnent une photo avec les lauréats du prix ​​Bao Son 2024. Photo : VNA

Quatre excellents projets remportent le Prix ​​Bao Son 2024

Quatre projets exceptionnels dans les domaines de la protection des animaux et de l'environnement, des sciences de la santé, des technologies de l'ingénierie et des sciences sociales et humaines ont été récompensés lors de la cérémonie de remise des Prix Bao Son 2024 qui s'est tenue le 11 mai au soir à l'Opéra de Hanoï. 

L'ADC représente la plus large bande passante jamais déployée au Vietnam, représentant 125 % la capacité cumulée des cinq câbles opérationnels actuels (IA, AAE-1, APG, AAG et SMW-3). Photo: Viettel

Viettel met en service le câble sous-marin ADC, le plus puissant jamais déployé au Vietnam

Dans le cadre de sa stratégie d’infrastructure numérique à l’horizon 2025 et des orientations pour 2030, le Vietnam a pour objectif de mettre en exploitation au moins deux nouveaux câbles optiques sous-marins internationaux en 2025 et au moins six autres d’ici 2030, portant la capacité totale prévue des câbles optiques sous-marins à un minimum de 350 Tbps.

L'Institut vietnamien de l'énergie atomique est le pionnier du soutien à la formation d'experts en énergie nucléaire.

L’énergie nucléaire au Vietnam : former les experts pour construire l’avenir

L’énergie nucléaire est une source d’énergie indispensable au développement futur du Vietnam, offrant l’opportunité de faire progresser le niveau scientifique, technique et industriel du pays. Pour atteindre cet objectif, la priorité essentielle est de former une équipe d’experts hautement qualifiés, capables d’exploiter les centrales nucléaires de manière sûre, efficace et durable.

Maquette du Centre de données de Viettel. Photo: CVN

Viettel construit le plus grand centre de données au Vietnam

Le Centre de données de Viettel est actuellement en construction dans la zone industrielle de Tân Phu Trung, district de Cu Chi, Hô Chi Minh-Ville, avec une capacité prévue de 140 MW, ce qui le place parmi les dix plus importants d’Asie du Sud-Est.

À mesure que les technologies de l’information et de la communication progressent au Vietnam, les risques liés à la cybersécurité ne cessent de croître. Photo : Viettel Security

Protéger le cyberespace pour un Vietnam numérique sûr

À l’ère de la transformation numérique, les technologies de l’information et de la communication se développent rapidement au Vietnam, jouant un rôle central dans tous les domaines de la vie économique et sociale.

Le vice-Premier ministre Nguyen Chi Dung lors de l'événement. Photo: VNA

Créer un environnement propice à l’innovation, selon le vice-PM Nguyen Chi Dung

Lors du Forum de l’investissement pour l’innovation au Vietnam 2025 (VIPC Summit), le vice-Premier ministre Nguyen Chi Dung a souligné l’importance de l’événement dans la mobilisation des ressources pour les sciences, les technologies, l’innovation et la transformation numérique – une tendance mondiale et une préconisation du Parti et de l’État selon la Résolution n°57 du Bureau politique.