daVinci-MagiHuman – 無料オンラインAIトーキングヘッド動画ジェネレーター

ポートレートと台本または音声から、daVinci-MagiHumanで音声と映像を一体生成したリップシンク動画を作成できます。

このdavinci-magihumanガイドは、スタジオと同じdaVinci-MagiHumanスタック（オープンウェイト、Apache 2.0、音声と映像の単一モデル）を紹介します。ブックマークしてdaVinci-MagiHumanの機能をすぐ確認できます。

プロンプト

デモを試す（Hugging Face）無料で始める

daVinci-MagiHumanとは？

オープンモデルと研究パートナー

daVinci-MagiHumanは、Sand.aiと上海交通大学GAIR LabがApache 2.0で公開した150億パラメータのオープンソースAIモデルです。ウェイトの検査、ローカル推論、ライセンス範囲内の商用利用が可能です。

音声・映像の統一生成

daVinci-MagiHumanはポートレートとテキストまたは音声を入力し、一致した音声付きトーキングヘッド動画を出力します。単一ストリームTransformerが、別々のTTS＋ビデオではなく、映像と音声を同時にデノイズします。

速度・品質・ベンチマーク

NVIDIA H100では、daVinci-MagiHumanは約2秒で約2秒分の256p短いクリップを生成できる場合があります（設定とハード依存）。公開評価ではWERが低く、人間評価でも複数のベースラインを上回ります。

主な機能

オーディオ・ビデオアバターにdaVinci-MagiHumanを評価する6つの理由 — davinci-magihumanで検索しても記事経由でも、同じdaVinci-MagiHumanの利点が当てはまります。

音声＋映像の統一

daVinci-MagiHumanは1パスで両モダリティを生成 — TTSと後からのビデオ合成は不要です。

参照写真

daVinci-MagiHumanは単一のポートレートをトーキングヘッドの視覚アンカーとして使用します。

多言語

daVinci-MagiHumanは複数言語のリップシンクをサポート（学習データとリリースノートに依存）。

オープンソース

Apache 2.0 — daVinci-MagiHumanのウェイトはライセンスの範囲で商用利用・拡張が可能です。

高速推論

daVinci-MagiHuman：H100クラスGPUで256p・約2秒分を約2秒（参考値）。

最先端品質

公開評価でdaVinci-MagiHumanはWERと人間選好でOvi 1.1やLTX 2.3に強い結果を示します。

daVinci-MagiHumanの比較

参考用の要約です。数値はベンチマークとプロンプトで変動します。daVinci-MagiHumanはWER約14.6%と報告され、Ovi 1.1の約40.5%より低く、人間評価でもOviやLTX 2.3に大きく勝っています。

WERと発話の明瞭さ

WERが低いほどdaVinci-MagiHumanの発話は一般的に明瞭です。表はdaVinci-MagiHumanがオープンベースラインとなる類似プロトコルでの範囲を比較しています。

人間の選好

並べ替え評価では、自然さと整合性で選ばれた出力が示されます — クローズドモデルに対してもdaVinci-MagiHumanが勝つ場合があります。

ライセンスとレイテンシ

オープンApache 2.0ウェイトによりdaVinci-MagiHumanを自前ホスト可能。プロプライエタリはクローズド。GPUと解像度で各daVinci-MagiHumanジョブの時間は異なります。

モデル	WER（↓）	人間選好	ライセンス	速度（目安）
daVinci-MagiHuman	約14.6%	Ovi 1.1に対し約80%；LTX 2.3にも強い	Apache 2.0	1×H100で256p・約2秒分を約2秒（記載値）
Ovi 1.1	約40.5%	公開比較でdaVinciより低い	プロプライエタリ	API／デプロイにより異なる
LTX 2.3	同表でより高いWER（変動）	人間評価でdaVinciに大きく劣る	プロプライエタリ	解像度とスタックにより異なる

daVinci-MagiHumanの使い方

ポートレートと台本の準備

ポートレートをアップロード — 正面のはっきりした顔が望ましい。
台本を入力するか音声ファイルをアップロード — モデルが発話に合わせてリップを同期。

解像度を選び生成

出力解像度を選択 — 例：256p、720p、1080p（推論スタックとVRAMによる）。
ジョブ完了後にトーキングヘッド動画をダウンロード。

セルフホストとHugging Face Hub

ローカルまたはサーバーで実行する場合は、HubからdaVinci-MagiHumanのチェックポイントを取得し、READMEに従ってCLIと環境を設定してください。davinci-magihumanのURLとdaVinci-MagiHumanリポジトリはリリースで更新されます。

例（Python / Hugging Face）

# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download

repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.

よくある質問

daVinci-MagiHumanに関する12のよくある質問 — デフォルトはオープンな回答です。davinci-magihuman検索とdaVinci-MagiHuman名向けに整理。

daVinci-MagiHumanとは？

daVinci-MagiHumanは、Sand.aiとGAIR Lab（上海交大）の150億パラメータの音声・映像モデルで、ポートレートとテキストまたは音声をリップシンクトーク動画に変換します。

daVinci-MagiHumanは無料？

オープンなdaVinci-MagiHumanのウェイトとコードはApache 2.0です。ホストされたデモは別条件の場合があります。セルフホストはライセンスに従います。

入力は何が必要？

daVinci-MagiHumanは通常、顔画像とテキストまたは音声ドライバーが必要です。形式と上限は推論READMEを参照。

SoraやVeoとの違いは？

それらは汎用動画システムです。daVinci-MagiHumanはオープンウェイトの音声・映像トーキングヘッド生成に特化しています。

商用利用は？

Apache 2.0は条件付きでdaVinci-MagiHumanの商用利用を許可します。生成コンテンツの配布時は義務を確認してください。

ダウンロードや試用はどこで？

このページのモデルカードとリンクされたHugging Face Spaceを使用するか、GitHubからdaVinci-MagiHumanのスクリプトとチェックポイントをクローン。

リップシンクはどの言語？

daVinci-MagiHumanの言語カバレッジはモデルとデータに依存；READMEの言語一覧を参照。

どのGPUやハード？

daVinci-MagiHumanのスループットはGPUクラスと解像度に依存；短いクリップではH100クラスGPUが引用されています。弱いGPUは解像度や蒸留を下げる場合があります。

ポートレートのコツは？

daVinci-MagiHumanでは：正面の鮮明な写真、均一な照明、中立または表現豊かな顔。強い遮蔽・極端な角度・低解像度は避ける。

テキストではなくクリーンな音声？

推論パスが音声条件付けをサポートすれば可能；形式と長さはドキュメント参照。

生成物のライセンスは？

daVinci-MagiHumanのウェイトはApache 2.0；生成コンテンツは利用、入力の権利、適用法の対象です。

バグ報告や機能要望は？

GitHubリポジトリGAIR-NLP/daVinci-MagiHumanのIssueで、ログ、ハード、再現手順を添えて。

AIでトーキングヘッド動画を作成

公開Spaceで試す、Hugging FaceでdaVinci-MagiHumanのウェイトを取得する、またはGitHubでオープンソースのdaVinci-MagiHumanをクローン。いずれも同じdavinci-magihuman／daVinci-MagiHumanフローです。

ブラウザのSpace

インストール不要でdaVinci-MagiHumanをすぐ試せるホストデモ。

Hugging Faceのウェイト

daVinci-MagiHumanのチェックポイントをダウンロードし、モデルカードで形式・バリアント・ライセンスを確認。

GitHubのソース

daVinci-MagiHumanの推論スクリプトをクローンし、Issueを開き、リリースを追跡。

Hugging Faceで見る GitHubリポジトリ