Meta a annoncé jeudi Make-A-Video, un outil en ligne qui crée de courts clips vidéo basés sur une description textuelle.
La société mère de Facebook, Meta, a développé un nouveau système d’IA capable de créer des vidéos à partir d’invites textuelles. À des fins de démonstration, le groupe américain a déjà créé des vidéos bizarres, comme des licornes galopant sur une plage avec leur nouveau système d’IA appelé Make-A-Video. En plus des invites écrites, Make-A-Video peut également créer des vidéos basées sur d’autres vidéos ou images. Il peut ajouter du mouvement à une image statique et également créer une vidéo combinant deux images. Ici, par exemple, une image fixe d’une tortue de mer a été prise. Après traitement par le modèle IA, on dirait alors qu’elle nage.
La technologie clé derrière Make-A-Video est qu’elle s’appuie sur la recherche existante avec la synthèse texte-image utilisée avec des générateurs d’images tels que DALL-E d’OpenAI. Il faut une invite écrite comme « un ours en peluche peint un portrait » et renvoie un court clip vidéo. Cela représente la tentative optimale du modèle d’apprentissage automatique pour répliquer le texte. Comme les meilleurs générateurs de texte en image, Make-A-Video utilise une technique appelée « diffusion ». Il commence par un bruit généré aléatoirement, puis ajuste progressivement le résultat pour se rapprocher de la cible. La précision des résultats dépend en grande partie de la qualité des données d’entraînement.
Les chercheurs écrivent :
« Dans tous les aspects, résolution spatiale et temporelle, fidélité et qualité du texte, Make-A-Video représente le nouvel état de l’art en matière de génération de texte en vidéo, tant qualitativement que quantitativement ».
Actuellement, les clips Make-A-Video se composent de 16 images qui sont produites à 64×64 pixels, puis mises à l’échelle à 768×768 pixels à l’aide d’un modèle AI différent. Les clips durent cinq secondes et ne montrent qu’une seule action ou scène. Nous sommes encore loin de l’IA créant un long métrage à partir de zéro. Cependant, les chercheurs de Meta ont l’intention de surmonter certaines de ces limitations techniques avec des recherches futures.
Make-A-Video créera-t-il le prochain battage médiatique ?
Avec l’avènement d’outils d’art IA tels que DALL-E, Stable Diffusion et Midjourney, entre autres, un afflux soudain d’images générées par l’IA a suscité un battage médiatique sur Internet ces derniers mois. Meta a également présenté son service de génération de vidéos AI Make-A-Video sur Twitter. Le grand nombre de commentaires en une seule journée suggère que le battage médiatique de l’imagerie par IA pourrait bientôt être remplacé par la génération de vidéo par IA.
Meta reconnaît qu’il existe certains dangers à pouvoir créer des vidéos photoréalistes à la demande. Comme pour toute IA générative qui arrive sur le marché, la possibilité d’abus est également présente avec Make-a-Video. Pour prévenir les abus potentiels, l’équipe de recherche a purgé de manière préventive l’ensemble de données de formation Make-a-Video des images NSFW et du langage offensant. Le groupe américain souligne que tous les contenus vidéo générés par l’IA de Make-A-Video contiennent un filigrane. Avec ça tu veux « en veillant à ce que les téléspectateurs sachent que la vidéo eine L’IA crée hà et aucune vidéo enregistrée n’est ».
Meta n’a pas encore fait d’annonce quant à la date à laquelle ils prévoient de publier Make-A-Video au public ou qui y aura accès. Cependant, la société propose un formulaire d’inscription que les utilisateurs peuvent remplir s’ils souhaitent essayer l’outil à l’avenir.