Cette IA chinoise fait chanter tout le monde !
Par Laurence - Publié le
Dans le petit monde de l'IA, Alibaba vient de dévoiler une IA générative, qui permet la création de clip vidéo à partir d'une photo et d'une bande son. Et le résultat est impressionnant !
Le 27 février dernier, Alibaba Cloud Intelligence (le labo de recherche du groupe Alibaba qui possède aussi AliExpress) a publié un article de recherche autour de son nouveau modèle d’intelligence artificielle, répondant -non sans rire- au nom d'EMO. Comme une photo dans Harry Potter, l'IA va transformer une image fixe en vidéo avec un mouvement très naturel au niveau de la bouche !
On peut écouter une Mona Lisa réciter du Shakespeare, ou encore Leonardo DiCaprio jeune rapper avec la voix d'EMINEN. Cela marche aussi bien avec des dessins style manga, des photos de personnes réels, et mêmes des personnages créés par une IA...
Pour aboutir à ce résultat, l'article indique avoir
La qualité de la vidéo est impressionnante de réalisme : l'IA arrive donc à faire mouvoir un visage fixe, en respectant la morphologie (la bouche, le nez, les sourcils...) et les mots prononcés. En fonction des sujets, on voit plus ou moins rapidement qu'il s'agit d'un montage mais cela annonce une nouvelle étape de l'IA.
Emo vous fait pousser la chanson !
Le 27 février dernier, Alibaba Cloud Intelligence (le labo de recherche du groupe Alibaba qui possède aussi AliExpress) a publié un article de recherche autour de son nouveau modèle d’intelligence artificielle, répondant -non sans rire- au nom d'EMO. Comme une photo dans Harry Potter, l'IA va transformer une image fixe en vidéo avec un mouvement très naturel au niveau de la bouche !
On peut écouter une Mona Lisa réciter du Shakespeare, ou encore Leonardo DiCaprio jeune rapper avec la voix d'EMINEN. Cela marche aussi bien avec des dessins style manga, des photos de personnes réels, et mêmes des personnages créés par une IA...
Pour aboutir à ce résultat, l'article indique avoir
constitué une base de données audio-vidéo riche de 250 heures de contenus et de 150 millions d’images. On y trouve des informations concernant les expressions faciales, permettant de générer un large panel de mouvements faciaux. Certains ne manqueront pas de s'interroger sur le consentement des uns et des autres...
La qualité de la vidéo est impressionnante de réalisme : l'IA arrive donc à faire mouvoir un visage fixe, en respectant la morphologie (la bouche, le nez, les sourcils...) et les mots prononcés. En fonction des sujets, on voit plus ou moins rapidement qu'il s'agit d'un montage mais cela annonce une nouvelle étape de l'IA.