Alibaba lance un modèle IA open source tout-en-un pour la création et l’édition de vidéos

Alibaba a dévoilé Wan2.1-VACE (Video All-in-one Creation and Editing), son nouveau modèle open source dédié à la création et à l’édition de vidéos. Cet outil réunit plusieurs fonctionnalités de traitement vidéo au sein d’un seul et même modèle, simplifiant ainsi le processus de création et améliorant l’efficacité et la productivité.

VACE est le premier modèle open source de l’industrie à offrir une solution unifiée pour une large gamme de tâches de génération et d’édition de vidéos. Il fait partie de la série de modèles de génération vidéo Wan2.1 d’Alibaba.

Un modèle polyvalent qui centralise édition et création vidéo

Wan2.1-VACE prend en charge la génération vidéo à partir d’entrées multimodales incluant du texte, des images et de la vidéo, tout en proposant aux créateurs une palette complète d’outils d’édition. Ses fonctionnalités incluent l’utilisation d’images ou de frames comme références, la retouche vidéo (repainting), la modification de zones spécifiques, ainsi que l’extension spatio-temporelle, permettant une combinaison flexible des tâches pour stimuler la créativité.

Grâce à cet outil avancé, les utilisateurs peuvent générer des vidéos à partir d’échantillons d’images, y intégrer des sujets en interaction ou animer des images fixes avec des effets de mouvement naturels. Ils bénéficient également de fonctionnalités de retouche comme le transfert de pose, le contrôle des mouvements et de la profondeur, la recolorisation, ainsi que des modifications de zones précises sans affecter l’ensemble de la vidéo.

Le modèle d’Alibaba permet également d’étendre les limites d’une vidéo en générant intelligemment le contenu manquant, ou encore de transformer une image verticale en vidéo horizontale enrichie. Les créateurs peuvent animer des personnages référencés, remplacer des objets ou contrôler la trajectoire du mouvement avec précision, dans un seul et même environnement intégré.

Wan2.1-VACE s’appuie sur plusieurs innovations technologiques pour répondre aux besoins variés des tâches d’édition vidéo. Son interface unifiée, appelée Video Condition Unit (VCU), permet le traitement commun des entrées multimodales (texte, image, vidéo, masques). Il intègre également une structure Context Adapter, qui insère différents concepts de tâche grâce à des représentations formelles des dimensions temporelles et spatiales. Ce design permet une gestion flexible d’un large éventail de tâches de synthèse vidéo.

Des cas d’usages multiples et un accès open source

Grâce à sa conception, Wan2.1-VACE peut être utilisé dans de nombreux domaines : production rapide de vidéos pour les réseaux sociaux, création de contenu marketing et publicitaire, post-production et effets spéciaux dans le cinéma et la télévision, ou encore création de vidéos éducatives.

La formation de modèles vidéo fondamentaux exige de vastes ressources informatiques et de grandes quantités de données d’entraînement de haute qualité. L’open source permet d’abaisser les barrières d’entrée et d’offrir aux entreprises la possibilité de produire du contenu visuel personnalisé, de qualité, rapidement et à moindre coût. Alibaba propose deux versions open source du modèle Wan2.1-VACE : une version avec 14 milliards de paramètres et une version allégée avec 1,3 milliard de paramètres. Les modèles sont disponibles gratuitement sur Hugging Face, GitHub, et la plateforme open source d’Alibaba Cloud, ModelScope.

En février, Alibaba avait ouvert quatre modèles Wan2.1 au public, suivis en avril d’un modèle de génération vidéo prenant en charge les frames de début et de fin. Ces modèles ont enregistré plus de 3,3 millions de téléchargements sur Hugging Face et ModelScope à ce jour.

Un modèle polyvalent qui centralise édition et création vidéo

Des cas d’usages multiples et un accès open source

Laisser un commentaire