Google alimente la tendance du texte à la vidéo avec Imagen Video
Rate this post

Google présente son logiciel Imagen Video. Cela transforme les commandes de texte en courts clips vidéo HD et commence peu de temps après Make-A-Video de Meta.

La saison de l’intelligence artificielle générative (IA) est apparemment ouverte. La semaine dernière, Meta a lancé son outil de génération de vidéos Make-A-Video AI. Un système d’intelligence artificielle qui permet aux utilisateurs de transformer des invites textuelles en clips vidéo courts, uniques et de haute qualité.

Google est sur les talons avec son modèle d’IA générative Imagen Video pour le text-to-video. Le battage médiatique continue avec cela et suit directement la technologie texte-image de l’année dernière avec DALL-E, MidJourney et Stable Diffusion. Google en a informé dans son article récemment publié « Imagen Video : génération de vidéo haute définition avec modèles de diffusion ».

Google vs Meta : Présentation de l’IA texte-vidéo

Six mois seulement après le lancement du générateur de texte en image DALLE-2 d’OpenAI, les progrès dans le domaine des modèles d’IA se sont accélérés. L’annonce vidéo Imagen du 10/5. Cette année, Google intervient moins d’une semaine après que Meta a dévoilé son outil d’intelligence artificielle texte-vidéo Make-A-Video.

Imagen Video s’appuie sur le précédent système de conversion de texte en image de Google, Imagen, lancé en mai. Cependant, au lieu d’une seule image fixe, Imagen Video crée une vidéo à partir de plusieurs images source. Le mode IA text-to-video devrait être capable de générer des vidéos 1280×768 à 24 images par seconde à partir d’une demande écrite. Le rapport de recherche de Google indique :

« Imagen Video crée des vidéos haute résolution avec des modèles de diffusion en cascade. La première étape consiste à prendre une invite de commande et à l’encoder dans des intégrations textuelles à l’aide d’un encodeur de texte T5. Un modèle de diffusion vidéo de base génère ensuite une vidéo de 16 images à une résolution de 24 × 48 et trois images par seconde. Ceci est suivi de plusieurs modèles de super-résolution temporelle (TSR) et de super-résolution spatiale (SSR) pour suréchantillonner et générer une vidéo finale de 128 images à une résolution de 1280 × 768 et 24 images par seconde. Le résultat est de 5,3 secondes de vidéo haute définition.

Un rapport de recherche indique des résultats prometteurs

Selon le rapport de recherche de Google, Imagen Video comprend plusieurs capacités stylistiques notables. Par exemple, ils attirent l’attention sur la création de vidéos basées sur les œuvres de peintres célèbres (par exemple, les peintures de Vincent van Gogh). Tout aussi remarquable serait la possibilité de créer des objets 3D rotatifs tout en préservant la structure de l’objet et de restituer le texte dans une variété de styles d’animation.

Les données d’entraînement pour Google Imagen Video proviennent d’un ensemble de données interne de Google composé de 14 millions d’échantillons vidéo-texte et de 60 millions de paires image-texte. Les informations du jeu de données image-texte LAION 400M accessible au public ont également été utilisées. Étant donné que les modèles génératifs peuvent également être utilisés à mauvais escient pour générer des contenus faux, haineux, explicites ou préjudiciables, Google informe qu’il a pris plusieurs mesures pour atténuer ces préoccupations.

Grâce à des tests internes, la société a confirmé qu’elle était en mesure d’appliquer un filtrage rapide au texte et un filtrage de sortie au contenu vidéo. Cependant, Google a averti qu’il reste encore d’importants défis de sécurité et d’éthique à surmonter.

En conséquence, Imagen Video a toujours tendance à contenir du contenu avec « Préjugés sociaux et stéréotypes » créer. Ceux-ci seraient difficiles à filtrer et à détecter. En conséquence, il n’est pas encore sûr de l’expérimenter, selon Google. Contrairement à Meta, il n’y aura pas de formulaire d’inscription pour les personnes intéressées. Google souligne :

« Nous avons décidé de ne pas publier le modèle Imagen Video ou son code source tant que ces problèmes ne seront pas résolus. »

Google alimente la tendance du texte à la vidéo avec Imagen Video