VASA-1 est un projet novateur de Microsoft qui suscite l'intérêt et l'inquiétude. Cette Intelligence Artificielle a la capacité de créer des deepfakes en utilisant uniquement une photo et un enregistrement audio. Cette avancée technologique soulève des questions éthiques et de sécurité, car elle pourrait être utilisée de manière malveillante pour manipuler des images et des discours. Les implications de cette technologie sont vastes, et il est essentiel de comprendre les risques potentiels qu'elle comporte. L'émergence de VASA-1 soulève des débats sur la réglementation de l'IA et met en lumière les défis éthiques liés à son utilisation dans la société moderne.
- VASA, l'IA de Microsoft révolutionne la création de deepfakes en temps réel
- Le réalisme saisissant de VASA: une simple photo et un enregistrement audio suffisent
- VASA-1, une IA trop dangereuse pour être libérée
- Meta présente sa nouvelle IA générative Llama 3, affirmant qu'elle est supérieure à Gemini
VASA, l'IA de Microsoft révolutionne la création de deepfakes en temps réel
Une simple photo et une enregistrement audio est tout ce qu'il faut pour que VASA-1, la nouvelle Intelligence Artificielle générative de Microsoft, crée un deepfake en quelques secondes. Ce phénomène n'est pas nouveau, mais jamais il n'a été aussi réaliste et en temps réel. VASA-1 est une IA générative qui a seulement besoin d'une photo d'identité, d'une phrase audio pour engendrer instantanément un deepfake d'une qualité extrêmement réaliste, avec synchronisation labiale, gestes naturels et mouvements de tête. Vous pouvez visualiser cela dans cette vidéo :
Il est facile de remarquer que la vidéo a été créée par une IA, mais il est impressionnant de constater un tel réalisme à partir d'une simple photo statique. Il est important de souligner que toutes les personnes apparaissant dans les images de cette nouvelle n'existent pas non plus, elles ont également été créées par une IA, plus précisément StyleGAN2 et DALL·E 3. Ainsi, rien de ce que vous voyez ici n'est réel.
Le réalisme saisissant de VASA: une simple photo et un enregistrement audio suffisent
Les principales innovations incluent un modèle holistique de dynamique faciale et de génération de mouvements de tête fonctionnant dans un espace latent facial, comme l'explique le communiqué de Microsoft. Derrière VASA-1 se trouve Microsoft Asia, une équipe composée d'experts en IA tels que Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong et Baining Guo.
Les créateurs de VASA-1 affirment que cette IA surpasse toutes les autres spécialisées dans la création d'avatars virtuels. VASA-1 se distingue par sa capacité à générer des vidéos de haute qualité en temps réel avec une dynamique faciale et une tête réalistes, avec une résolution allant jusqu'à 512 x 512 pixels et 40 images par seconde, et une latence de moins de 170 ms, en utilisant une carte graphique RTX 4090.
VASA-1, une IA trop dangereuse pour être libérée
Il est à noter que VASA-1 n'émule pas la voix, c'est-à-dire qu'elle n'est pas capable de générer de nouveaux enregistrements audio. Elle utilise l'enregistrement fourni. Cependant, la synchronisation labiale est réellement spectaculaire.
Bien sûr, Microsoft n'a pas développé cette intelligence artificielle générative dans le but de créer des deepfakes, mais plutôt pour concevoir des avatars réalistes qui imitent les comportements conversationnels humains. L'idée étant d'utiliser ces avatars dans des services d'assistance clientèle, des jeux vidéo, des applications, etc.
Meta présente sa nouvelle IA générative Llama 3, affirmant qu'elle est supérieure à Gemini
Alors que les avatars peuvent être générés automatiquement, VASA-1 dispose d'une série de paramètres de personnalisation pour rendre le personnage virtuel plus joyeux, plus sérieux, plus ou moins expressif, etc. Avec VASA-1, Microsoft ne cherche pas à créer des deepfakes, mais est conscient que c'est ce que les gens feront en premier lieu. C'est pourquoi, pour l'instant, aucune démonstration, API ou version commerciale ne sera lancée, tant que nous ne sommes pas sûrs que la technologie soit utilisée de manière responsable. Et cela ne se produira jamais.
Laisser un commentaire