daVinci-MagiHuman – 免费在线 AI 口型同步说话视频生成器

用一张肖像加上脚本或音频，生成口型同步的说话视频——音视频由 daVinci-MagiHuman 在同一流程中联合生成。

本 davinci-magihuman 专题页介绍与工作室中一致的 daVinci-MagiHuman 技术栈：开放权重、Apache 2.0，以及单一模型同时输出对齐的语音与画面。需要快速回顾 daVinci-MagiHuman 能力时，可收藏本 davinci-magihuman 页面。

提示词

试用 Demo（Hugging Face）免费开始

什么是 daVinci-MagiHuman？

开放模型与科研合作方

daVinci-MagiHuman 是由 Sand.ai 与上海交通大学 GAIR Lab 发布的 150 亿参数开源模型。采用 Apache 2.0，可检查权重、本地推理，并在许可范围内商用。

统一的音视频生成

daVinci-MagiHuman 接收面部照片与文本或音频，输出口型同步且带匹配音频的说话视频。daVinci-MagiHuman 采用单流 Transformer，在同一过程中联合去噪视频与音频 token，而非拼接独立流水线。

速度、质量与基线

在单张 NVIDIA H100 上，daVinci-MagiHuman 可在约两秒墙钟时间内生成约两秒、256p 的短片（视设置与硬件而定）。针对 daVinci-MagiHuman 的研究评测显示词错误率更低、人工偏好更高。

核心特性

团队评估统一音视频虚拟形象时常以 daVinci-MagiHuman 为参照——无论通过 davinci-magihuman 关键词还是论文了解模型，daVinci-MagiHuman 的关键优势一致。

音视频联合

daVinci-MagiHuman 在一次前向中联合生成两种模态，无需单独的 TTS 再拼视频。

单张参考肖像

daVinci-MagiHuman 仅需一张肖像作为说话头部的视觉锚点。

多语言口型

daVinci-MagiHuman 支持多语言口型同步（具体以训练数据与版本说明为准）。

开源

Apache 2.0 — daVinci-MagiHuman 权重可在许可下免费使用与二次开发。

推理速度

daVinci-MagiHuman 在 H100 级 GPU 上约 2 秒可生成约 2 秒、256p 片段（视设置而定）。

一流表现

daVinci-MagiHuman 在公开评测中相对 Ovi 1.1、LTX 2.3 等模型表现突出。

daVinci-MagiHuman 对比

以下为示意性对比；具体数字因测试集与提示词而异。daVinci-MagiHuman 报告约 14.6% WER，而 Ovi 1.1 约 40.5%，并在大量成对人工评测中优于 Ovi 与 LTX 2.3。

WER 与语音清晰度

更低的 WER 通常意味着更清晰的口型语音。表中可在相近评测设置下对比各模型，其中 daVinci-MagiHuman 为开放基线。

人工偏好

并排研究总结观众在自然度与对齐度上的偏好——包括 daVinci-MagiHuman 相对闭源模型胜出的设置。

许可与延迟

Apache 2.0 开放权重便于自托管 daVinci-MagiHuman；闭源方案则不可。不同 GPU 与分辨率下，每次 daVinci-MagiHuman 任务的墙钟时间不同。

模型	WER（↓）	人工偏好	许可	速度（参考）
daVinci-MagiHuman	~14.6%	对 Ovi 1.1 约 80% 胜出；对 LTX 2.3 亦强	Apache 2.0	单卡 H100 上约 2 秒生成约 2 秒 256p（文献）
Ovi 1.1	~40.5%	公开对比中低于 daVinci	专有	因 API/部署而异
LTX 2.3	同表更高（因设置而异）	人工评测中多数输给 daVinci	专有	因分辨率与栈而异

如何使用 daVinci-MagiHuman

准备肖像与脚本

上传肖像照——正脸、清晰最佳。
输入脚本或上传音频文件——模型对齐口型与语音。

选择分辨率并生成

选择输出分辨率——如 256p、720p 或 1080p，取决于推理栈与显存。
任务完成后下载说话视频。

自托管与 Hugging Face Hub

本地或服务器部署时，从 Hub 拉取 daVinci-MagiHuman 权重并按上游 README 配置 CLI。davinci-magihuman 落地页与 daVinci-MagiHuman 仓库随版本同步更新。

示例（Python / Hugging Face）

# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download

repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.

常见问题

关于 daVinci-MagiHuman 的 12 个常见问题——默认展开便于阅读。便于同时检索 davinci-magihuman 关键词与 daVinci-MagiHuman 模型名的访客。

什么是 daVinci-MagiHuman？

daVinci-MagiHuman 是由 Sand.ai 与 SJTU GAIR Lab 发布的 150 亿参数开源音视频模型，可将肖像与文本或音频转为口型同步片段。

daVinci-MagiHuman 免费吗？

daVinci-MagiHuman 权重与代码为 Apache 2.0。托管演示可能有额外条款；自托管须遵守许可。

需要哪些输入？

daVinci-MagiHuman 通常需要人脸图像及驱动文本或音频；格式与限制见官方推理 README。

与 Sora、Veo 有何不同？

后者为通用视频系统。daVinci-MagiHuman 专注开放权重的说话头音视频联合生成。

可以商用吗？

Apache 2.0 允许在遵守声明等条件下商用 daVinci-MagiHuman；发布 daVinci-MagiHuman 生成内容前请审阅合规义务。

在哪里下载或试用 daVinci-MagiHuman？

使用本页链接的 Hugging Face 模型卡与 Space，或克隆 GitHub 获取 daVinci-MagiHuman 脚本与权重。

支持哪些语言的口型？

daVinci-MagiHuman 覆盖范围取决于模型与训练数据；语言列表见官方 README。

需要什么 GPU？

daVinci-MagiHuman 吞吐与 GPU 档次、分辨率相关；文献常用 H100 短片段；低端 GPU 可尝试更低分辨率或蒸馏版。

如何获得更好肖像效果？

使用 daVinci-MagiHuman 时建议正脸、光线均匀、表情自然，避免严重遮挡、大角度或过低分辨率。

能用自有音频代替文本吗？

若 daVinci-MagiHuman 推理路径支持音频条件，可按文档的格式、时长与对齐说明操作。

生成视频的版权如何界定？

daVinci-MagiHuman 权重为 Apache 2.0；生成内容仍受使用场景、输入素材权利与法律约束。敏感用途请咨询法律顾问。

如何反馈缺陷或功能请求？

请使用 GAIR-NLP/daVinci-MagiHuman 仓库的 GitHub Issues，并附上日志、硬件与复现步骤。

用 AI 开始制作说话视频

可试用公开 Space、从 Hugging Face 下载 daVinci-MagiHuman 权重，或在 GitHub 克隆 daVinci-MagiHuman 开源仓库。以下入口对应同一套 davinci-magihuman / daVinci-MagiHuman 工作流。

浏览器 Space

想快速体验可运行托管的 daVinci-MagiHuman Demo，无需本地安装。

Hugging Face 权重

下载 daVinci-MagiHuman 检查点并阅读模型卡中的格式、变体与许可说明。

GitHub 源码

克隆 daVinci-MagiHuman 推理脚本、提交 issue 并跟踪上游发布。

在 Hugging Face 查看 GitHub 仓库