daVinci-MagiHuman – Générateur vidéo parlant IA en ligne gratuit

À partir d’un portrait et d’un script ou d’un audio, obtenez une vidéo parlante aux lèvres synchronisées — audio et vidéo générés ensemble avec daVinci-MagiHuman.

Ce guide davinci-magihuman présente la même pile daVinci-MagiHuman que dans notre studio : poids ouverts, Apache 2.0, et un seul modèle pour parole et images alignées. Ajoutez aux favoris la page davinci-magihuman pour revoir rapidement les capacités de daVinci-MagiHuman.

Qu’est-ce que daVinci-MagiHuman ?

Modèle ouvert et partenaires de recherche

daVinci-MagiHuman est un modèle IA open source 15B développé par Sand.ai et le GAIR Lab (Shanghai Jiao Tong University), sous licence Apache 2.0 : inspecter les poids, inférer localement et usage commercial dans les limites de la licence.

Génération audio–vidéo unifiée

daVinci-MagiHuman prend un portrait plus texte ou audio et produit une vidéo parlante avec audio assorti. Le Transformer single-stream de daVinci-MagiHuman débruite vidéo et audio ensemble plutôt que des pipelines séparés.

Vitesse, qualité et références

Sur une NVIDIA H100, daVinci-MagiHuman peut générer un court clip 256p en ~2 s pour ~2 s de contenu (selon réglages et matériel). Les évaluations de daVinci-MagiHuman montrent un faible WER et une forte préférence humaine face à plusieurs baselines.

Fonctionnalités clés

Six raisons d’évaluer daVinci-MagiHuman pour des avatars audio–vidéo — les mêmes atouts daVinci-MagiHuman s’appliquent que vous trouviez le modèle via le mot-clé davinci-magihuman ou les articles.

Audio + vidéo unifiés

daVinci-MagiHuman génère les deux modalités en une passe — sans TTS puis collage vidéo séparés.

Photo de référence

daVinci-MagiHuman fonctionne avec un seul portrait comme ancrage visuel de la tête parlante.

Multilingue

daVinci-MagiHuman prend en charge plusieurs langues pour la synchro labiale (selon données d’entraînement et notes de version).

Open source

Apache 2.0 — les poids daVinci-MagiHuman sont utilisables et extensibles commercialement dans le cadre de la licence.

Inférence rapide

daVinci-MagiHuman : ~2 s pour ~2 s en 256p sur une GPU de classe H100 (selon réglages).

Qualité de pointe

daVinci-MagiHuman affiche de solides résultats WER et de préférence vs Ovi 1.1 et LTX 2.3 dans les évaluations publiées.

Comparaison de daVinci-MagiHuman

Résumé indicatif ; les chiffres varient selon jeux de tests et prompts. daVinci-MagiHuman rapporte ~14,6 % de WER contre ~40,5 % pour Ovi 1.1 et remporte une large part des comparaisons humaines avec Ovi et LTX 2.3.

WER et clarté de la parole

Un WER plus bas signifie généralement une parole plus claire pour daVinci-MagiHuman. Le tableau compare des plages sur des protocoles similaires où daVinci-MagiHuman est la baseline ouverte.

Préférence humaine

Les études côte à côte indiquent les sorties préférées pour naturalité et alignement — y compris quand daVinci-MagiHuman bat les modèles fermés.

Licence et latence

Les poids ouverts Apache 2.0 permettent d’héberger daVinci-MagiHuman vous-même ; les piles propriétaires restent fermées ; le temps varie selon GPU et résolution pour chaque tâche daVinci-MagiHuman.

ModèleWER (↓)Préférence humaineLicenceVitesse (indicative)
daVinci-MagiHuman~14,6 %~80 % vs Ovi 1.1 ; fort vs LTX 2.3Apache 2.0~2 s pour ~2 s à 256p sur 1× H100 (indiqué)
Ovi 1.1~40,5 %Inférieur à daVinci dans les comparaisons publiéesPropriétaireVariable selon API / déploiement
LTX 2.3WER plus élevé dans le même tableau (varie)Perd majoritairement vs daVinci dans les évals humainesPropriétaireVariable selon résolution et stack

Comment utiliser daVinci-MagiHuman

Préparer portrait et script

  1. Téléverser un portrait — visage clair de face de préférence.
  2. Saisir le script ou téléverser un fichier audio — le modèle aligne les lèvres sur la parole.

Choisir la résolution et lancer la génération

  1. Choisir la résolution de sortie — ex. 256p, 720p ou 1080p selon stack d’inférence et VRAM.
  2. Générer et télécharger la vidéo parlante une fois le job terminé.

Auto-hébergement et Hugging Face Hub

Pour exécution locale ou serveur, tirez les checkpoints daVinci-MagiHuman depuis le Hub et suivez le README pour CLI et environnement. L’URL davinci-magihuman et le dépôt daVinci-MagiHuman évoluent avec les releases.

Exemple (Python / Hugging Face)

# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download

repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.

Questions fréquentes

Douze questions courantes sur daVinci-MagiHuman — réponses ouvertes par défaut. Regroupées pour les recherches davinci-magihuman et le nom daVinci-MagiHuman.

Qu’est-ce que daVinci-MagiHuman ?

daVinci-MagiHuman est un modèle audio–vidéo 15B de Sand.ai et GAIR Lab (SJTU) qui transforme portrait plus texte ou audio en clip parlant aux lèvres synchronisées.

daVinci-MagiHuman est-il gratuit ?

Les poids et le code ouverts de daVinci-MagiHuman sont sous Apache 2.0. Les démos hébergées peuvent avoir d’autres conditions ; l’auto-hébergement de daVinci-MagiHuman suit la licence.

De quels intrants a-t-il besoin ?

daVinci-MagiHuman requiert en général une image de visage et du texte ou audio conducteur ; formats et limites dans la README d’inférence.

Comparaison avec Sora ou Veo ?

Ce sont des systèmes vidéo généraux. daVinci-MagiHuman cible la génération tête parlante audio–vidéo avec poids ouverts.

Usage commercial ?

Apache 2.0 autorise l’usage commercial de daVinci-MagiHuman sous conditions. Vérifiez vos obligations lors de la diffusion de contenus générés par daVinci-MagiHuman.

Où télécharger ou essayer daVinci-MagiHuman ?

Utilisez la fiche modèle et le Space Hugging Face liés sur cette page, ou clonez le dépôt GitHub pour scripts et checkpoints daVinci-MagiHuman.

Quelles langues pour la synchro labiale ?

La couverture de daVinci-MagiHuman dépend du modèle et des données ; voir la README pour la liste des langues.

Quel GPU ou matériel ?

Le débit de daVinci-MagiHuman dépend de la classe GPU et de la résolution ; les rapports citent des GPU H100 pour les courts clips ; des GPU plus faibles peuvent utiliser des résolutions ou distillations moindres.

Meilleurs résultats portrait ?

Avec daVinci-MagiHuman : photo frontale nette, lumière uniforme, visage neutre ou expressif. Évitez occlusion forte, angles extrêmes ou résolution trop basse.

Audio propre au lieu du texte ?

Oui si le chemin d’inférence daVinci-MagiHuman prend en charge le conditionnement audio ; voir la doc pour formats et durées.

Licence des sorties générées ?

Les poids daVinci-MagiHuman sont Apache 2.0 ; le contenu généré reste soumis à votre usage, aux droits sur les entrées et au droit applicable.

Où signaler des bugs ou demander des fonctions ?

Issues GitHub du dépôt GAIR-NLP/daVinci-MagiHuman, avec journaux, matériel et étapes de reproduction.

Créez des vidéos parlantes avec l’IA

Essayez l’espace public, téléchargez les poids daVinci-MagiHuman sur Hugging Face ou clonez le dépôt open source daVinci-MagiHuman sur GitHub. Chaque chemin suit le même flux davinci-magihuman / daVinci-MagiHuman.

Espace dans le navigateur

Démo daVinci-MagiHuman hébergée pour un test rapide sans installation.

Poids sur Hugging Face

Téléchargez les checkpoints daVinci-MagiHuman et consultez la fiche modèle pour formats, variantes et licence.

Source sur GitHub

Clonez les scripts d’inférence daVinci-MagiHuman, ouvrez des issues et suivez les releases.