音声+映像の統一
daVinci-MagiHumanは1パスで両モダリティを生成 — TTSと後からのビデオ合成は不要です。
ポートレートと台本または音声から、daVinci-MagiHumanで音声と映像を一体生成したリップシンク動画を作成できます。
このdavinci-magihumanガイドは、スタジオと同じdaVinci-MagiHumanスタック(オープンウェイト、Apache 2.0、音声と映像の単一モデル)を紹介します。ブックマークしてdaVinci-MagiHumanの機能をすぐ確認できます。
daVinci-MagiHumanは、Sand.aiと上海交通大学GAIR LabがApache 2.0で公開した150億パラメータのオープンソースAIモデルです。ウェイトの検査、ローカル推論、ライセンス範囲内の商用利用が可能です。
daVinci-MagiHumanはポートレートとテキストまたは音声を入力し、一致した音声付きトーキングヘッド動画を出力します。単一ストリームTransformerが、別々のTTS+ビデオではなく、映像と音声を同時にデノイズします。
NVIDIA H100では、daVinci-MagiHumanは約2秒で約2秒分の256p短いクリップを生成できる場合があります(設定とハード依存)。公開評価ではWERが低く、人間評価でも複数のベースラインを上回ります。
オーディオ・ビデオアバターにdaVinci-MagiHumanを評価する6つの理由 — davinci-magihumanで検索しても記事経由でも、同じdaVinci-MagiHumanの利点が当てはまります。
daVinci-MagiHumanは1パスで両モダリティを生成 — TTSと後からのビデオ合成は不要です。
daVinci-MagiHumanは単一のポートレートをトーキングヘッドの視覚アンカーとして使用します。
daVinci-MagiHumanは複数言語のリップシンクをサポート(学習データとリリースノートに依存)。
Apache 2.0 — daVinci-MagiHumanのウェイトはライセンスの範囲で商用利用・拡張が可能です。
daVinci-MagiHuman:H100クラスGPUで256p・約2秒分を約2秒(参考値)。
公開評価でdaVinci-MagiHumanはWERと人間選好でOvi 1.1やLTX 2.3に強い結果を示します。
参考用の要約です。数値はベンチマークとプロンプトで変動します。daVinci-MagiHumanはWER約14.6%と報告され、Ovi 1.1の約40.5%より低く、人間評価でもOviやLTX 2.3に大きく勝っています。
WERが低いほどdaVinci-MagiHumanの発話は一般的に明瞭です。表はdaVinci-MagiHumanがオープンベースラインとなる類似プロトコルでの範囲を比較しています。
並べ替え評価では、自然さと整合性で選ばれた出力が示されます — クローズドモデルに対してもdaVinci-MagiHumanが勝つ場合があります。
オープンApache 2.0ウェイトによりdaVinci-MagiHumanを自前ホスト可能。プロプライエタリはクローズド。GPUと解像度で各daVinci-MagiHumanジョブの時間は異なります。
| モデル | WER(↓) | 人間選好 | ライセンス | 速度(目安) |
|---|---|---|---|---|
| daVinci-MagiHuman | 約14.6% | Ovi 1.1に対し約80%;LTX 2.3にも強い | Apache 2.0 | 1×H100で256p・約2秒分を約2秒(記載値) |
| Ovi 1.1 | 約40.5% | 公開比較でdaVinciより低い | プロプライエタリ | API/デプロイにより異なる |
| LTX 2.3 | 同表でより高いWER(変動) | 人間評価でdaVinciに大きく劣る | プロプライエタリ | 解像度とスタックにより異なる |
ローカルまたはサーバーで実行する場合は、HubからdaVinci-MagiHumanのチェックポイントを取得し、READMEに従ってCLIと環境を設定してください。davinci-magihumanのURLとdaVinci-MagiHumanリポジトリはリリースで更新されます。
例(Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.daVinci-MagiHumanに関する12のよくある質問 — デフォルトはオープンな回答です。davinci-magihuman検索とdaVinci-MagiHuman名向けに整理。
daVinci-MagiHumanは、Sand.aiとGAIR Lab(上海交大)の150億パラメータの音声・映像モデルで、ポートレートとテキストまたは音声をリップシンクトーク動画に変換します。
オープンなdaVinci-MagiHumanのウェイトとコードはApache 2.0です。ホストされたデモは別条件の場合があります。セルフホストはライセンスに従います。
daVinci-MagiHumanは通常、顔画像とテキストまたは音声ドライバーが必要です。形式と上限は推論READMEを参照。
それらは汎用動画システムです。daVinci-MagiHumanはオープンウェイトの音声・映像トーキングヘッド生成に特化しています。
Apache 2.0は条件付きでdaVinci-MagiHumanの商用利用を許可します。生成コンテンツの配布時は義務を確認してください。
このページのモデルカードとリンクされたHugging Face Spaceを使用するか、GitHubからdaVinci-MagiHumanのスクリプトとチェックポイントをクローン。
daVinci-MagiHumanの言語カバレッジはモデルとデータに依存;READMEの言語一覧を参照。
daVinci-MagiHumanのスループットはGPUクラスと解像度に依存;短いクリップではH100クラスGPUが引用されています。弱いGPUは解像度や蒸留を下げる場合があります。
daVinci-MagiHumanでは:正面の鮮明な写真、均一な照明、中立または表現豊かな顔。強い遮蔽・極端な角度・低解像度は避ける。
推論パスが音声条件付けをサポートすれば可能;形式と長さはドキュメント参照。
daVinci-MagiHumanのウェイトはApache 2.0;生成コンテンツは利用、入力の権利、適用法の対象です。
GitHubリポジトリGAIR-NLP/daVinci-MagiHumanのIssueで、ログ、ハード、再現手順を添えて。
公開Spaceで試す、Hugging FaceでdaVinci-MagiHumanのウェイトを取得する、またはGitHubでオープンソースのdaVinci-MagiHumanをクローン。いずれも同じdavinci-magihuman/daVinci-MagiHumanフローです。
インストール不要でdaVinci-MagiHumanをすぐ試せるホストデモ。
daVinci-MagiHumanのチェックポイントをダウンロードし、モデルカードで形式・バリアント・ライセンスを確認。
daVinci-MagiHumanの推論スクリプトをクローンし、Issueを開き、リリースを追跡。