音视频联合
daVinci-MagiHuman 在一次前向中联合生成两种模态,无需单独的 TTS 再拼视频。
用一张肖像加上脚本或音频,生成口型同步的说话视频——音视频由 daVinci-MagiHuman 在同一流程中联合生成。
本 davinci-magihuman 专题页介绍与工作室中一致的 daVinci-MagiHuman 技术栈:开放权重、Apache 2.0,以及单一模型同时输出对齐的语音与画面。需要快速回顾 daVinci-MagiHuman 能力时,可收藏本 davinci-magihuman 页面。
daVinci-MagiHuman 是由 Sand.ai 与上海交通大学 GAIR Lab 发布的 150 亿参数开源模型。采用 Apache 2.0,可检查权重、本地推理,并在许可范围内商用。
daVinci-MagiHuman 接收面部照片与文本或音频,输出口型同步且带匹配音频的说话视频。daVinci-MagiHuman 采用单流 Transformer,在同一过程中联合去噪视频与音频 token,而非拼接独立流水线。
在单张 NVIDIA H100 上,daVinci-MagiHuman 可在约两秒墙钟时间内生成约两秒、256p 的短片(视设置与硬件而定)。针对 daVinci-MagiHuman 的研究评测显示词错误率更低、人工偏好更高。
团队评估统一音视频虚拟形象时常以 daVinci-MagiHuman 为参照——无论通过 davinci-magihuman 关键词还是论文了解模型,daVinci-MagiHuman 的关键优势一致。
daVinci-MagiHuman 在一次前向中联合生成两种模态,无需单独的 TTS 再拼视频。
daVinci-MagiHuman 仅需一张肖像作为说话头部的视觉锚点。
daVinci-MagiHuman 支持多语言口型同步(具体以训练数据与版本说明为准)。
Apache 2.0 — daVinci-MagiHuman 权重可在许可下免费使用与二次开发。
daVinci-MagiHuman 在 H100 级 GPU 上约 2 秒可生成约 2 秒、256p 片段(视设置而定)。
daVinci-MagiHuman 在公开评测中相对 Ovi 1.1、LTX 2.3 等模型表现突出。
以下为示意性对比;具体数字因测试集与提示词而异。daVinci-MagiHuman 报告约 14.6% WER,而 Ovi 1.1 约 40.5%,并在大量成对人工评测中优于 Ovi 与 LTX 2.3。
更低的 WER 通常意味着更清晰的口型语音。表中可在相近评测设置下对比各模型,其中 daVinci-MagiHuman 为开放基线。
并排研究总结观众在自然度与对齐度上的偏好——包括 daVinci-MagiHuman 相对闭源模型胜出的设置。
Apache 2.0 开放权重便于自托管 daVinci-MagiHuman;闭源方案则不可。不同 GPU 与分辨率下,每次 daVinci-MagiHuman 任务的墙钟时间不同。
| 模型 | WER(↓) | 人工偏好 | 许可 | 速度(参考) |
|---|---|---|---|---|
| daVinci-MagiHuman | ~14.6% | 对 Ovi 1.1 约 80% 胜出;对 LTX 2.3 亦强 | Apache 2.0 | 单卡 H100 上约 2 秒生成约 2 秒 256p(文献) |
| Ovi 1.1 | ~40.5% | 公开对比中低于 daVinci | 专有 | 因 API/部署而异 |
| LTX 2.3 | 同表更高(因设置而异) | 人工评测中多数输给 daVinci | 专有 | 因分辨率与栈而异 |
本地或服务器部署时,从 Hub 拉取 daVinci-MagiHuman 权重并按上游 README 配置 CLI。davinci-magihuman 落地页与 daVinci-MagiHuman 仓库随版本同步更新。
示例(Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.关于 daVinci-MagiHuman 的 12 个常见问题——默认展开便于阅读。便于同时检索 davinci-magihuman 关键词与 daVinci-MagiHuman 模型名的访客。
daVinci-MagiHuman 是由 Sand.ai 与 SJTU GAIR Lab 发布的 150 亿参数开源音视频模型,可将肖像与文本或音频转为口型同步片段。
daVinci-MagiHuman 权重与代码为 Apache 2.0。托管演示可能有额外条款;自托管须遵守许可。
daVinci-MagiHuman 通常需要人脸图像及驱动文本或音频;格式与限制见官方推理 README。
后者为通用视频系统。daVinci-MagiHuman 专注开放权重的说话头音视频联合生成。
Apache 2.0 允许在遵守声明等条件下商用 daVinci-MagiHuman;发布 daVinci-MagiHuman 生成内容前请审阅合规义务。
使用本页链接的 Hugging Face 模型卡与 Space,或克隆 GitHub 获取 daVinci-MagiHuman 脚本与权重。
daVinci-MagiHuman 覆盖范围取决于模型与训练数据;语言列表见官方 README。
daVinci-MagiHuman 吞吐与 GPU 档次、分辨率相关;文献常用 H100 短片段;低端 GPU 可尝试更低分辨率或蒸馏版。
使用 daVinci-MagiHuman 时建议正脸、光线均匀、表情自然,避免严重遮挡、大角度或过低分辨率。
若 daVinci-MagiHuman 推理路径支持音频条件,可按文档的格式、时长与对齐说明操作。
daVinci-MagiHuman 权重为 Apache 2.0;生成内容仍受使用场景、输入素材权利与法律约束。敏感用途请咨询法律顾问。
请使用 GAIR-NLP/daVinci-MagiHuman 仓库的 GitHub Issues,并附上日志、硬件与复现步骤。
可试用公开 Space、从 Hugging Face 下载 daVinci-MagiHuman 权重,或在 GitHub 克隆 daVinci-MagiHuman 开源仓库。以下入口对应同一套 davinci-magihuman / daVinci-MagiHuman 工作流。
想快速体验可运行托管的 daVinci-MagiHuman Demo,无需本地安装。
下载 daVinci-MagiHuman 检查点并阅读模型卡中的格式、变体与许可说明。
克隆 daVinci-MagiHuman 推理脚本、提交 issue 并跟踪上游发布。