Единое аудио + видео
daVinci-MagiHuman генерирует обе модальности за один проход — без отдельного TTS и склейки видео.
По портрету и сценарию или аудио получите говорящее видео с синхронизацией губ — аудио и видео генерируются вместе с daVinci-MagiHuman.
Этот гайд davinci-magihuman описывает тот же стек daVinci-MagiHuman, что и в нашем студии: открытые веса, Apache 2.0 и одна модель для голоса и изображения. Добавьте страницу davinci-magihuman в закладки, чтобы быстро вспомнить возможности daVinci-MagiHuman.
daVinci-MagiHuman — открытая ИИ‑модель на 15B параметров от Sand.ai и GAIR Lab (Шанхайский университет Цзяотун), под лицензией Apache 2.0: можно изучать веса, запускать локально и использовать в коммерции в рамках лицензии.
daVinci-MagiHuman принимает портрет плюс текст или аудио и выдаёт говорящее видео с согласованным звуком. Однопоточный Transformer daVinci-MagiHuman убирает шум с видео и аудио вместе, а не в раздельных конвейерах.
На NVIDIA H100 daVinci-MagiHuman может сгенерировать короткий клип 256p за ~2 с на ~2 с контента (зависит от настроек и железа). В оценках daVinci-MagiHuman показывает низкий WER и сильное человеческое предпочтение относительно ряда базовых моделей.
Шесть причин оценить daVinci-MagiHuman для аудио‑видео аватаров — те же преимущества daVinci-MagiHuman, нашли ли вы модель по запросу davinci-magihuman или через статьи.
daVinci-MagiHuman генерирует обе модальности за один проход — без отдельного TTS и склейки видео.
daVinci-MagiHuman использует один портрет как визуальный якорь говорящей головы.
daVinci-MagiHuman поддерживает несколько языков для синхронизации губ (зависит от обучающих данных и релизов).
Apache 2.0 — веса daVinci-MagiHuman можно использовать и расширять коммерчески в рамках лицензии.
daVinci-MagiHuman: ~2 с для ~2 с при 256p на GPU класса H100 (ориентировочно).
В публикациях daVinci-MagiHuman показывает сильные WER и предпочтение перед Ovi 1.1 и LTX 2.3.
Ориентировочная сводка; цифры зависят от бенчмарков и промптов. У daVinci-MagiHuman сообщается WER ~14,6% против ~40,5% у Ovi 1.1 и большое преимущество в человеческих сравнениях с Ovi и LTX 2.3.
Ниже WER обычно означает более чёткую речь для daVinci-MagiHuman. Таблица сравнивает диапазоны на похожих протоколах, где daVinci-MagiHuman — открытая база.
Попарные оценки показывают предпочтительные по естественности и согласованности результаты — в том числе когда daVinci-MagiHuman обходит закрытые модели.
Открытые веса Apache 2.0 позволяют хостить daVinci-MagiHuman самостоятельно; проприетарные стеки закрыты; время зависит от GPU и разрешения для каждой задачи daVinci-MagiHuman.
| Модель | WER (↓) | Человеческое предпочтение | Лицензия | Скорость (ориентир) |
|---|---|---|---|---|
| daVinci-MagiHuman | ~14,6 % | ~80 % против Ovi 1.1; сильно против LTX 2.3 | Apache 2.0 | ~2 с для ~2 с при 256p на 1× H100 (указано) |
| Ovi 1.1 | ~40,5 % | Ниже daVinci в опубликованных сравнениях | Проприетарная | Зависит от API / развёртывания |
| LTX 2.3 | Выше WER в той же таблице (варьируется) | Уступает daVinci в человеческих оценках | Проприетарная | Зависит от разрешения и стека |
Для локального или серверного запуска скачайте чекпоинты daVinci-MagiHuman с Hub и следуйте README для CLI и окружения. URL davinci-magihuman и репозиторий daVinci-MagiHuman обновляются с релизами.
Пример (Python / Hugging Face)
# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download
repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.Двенадцать типичных вопросов о daVinci-MagiHuman — по умолчанию открытые ответы. Сгруппировано для поиска davinci-magihuman и имени daVinci-MagiHuman.
daVinci-MagiHuman — аудио‑видео модель на 15B от Sand.ai и GAIR Lab (SJTU), превращающая портрет плюс текст или аудио в говорящий клип с синхронизацией губ.
Открытые веса и код daVinci-MagiHuman под Apache 2.0. У хостинговых демо могут быть другие условия; самохостинг daVinci-MagiHuman следует лицензии.
Обычно daVinci-MagiHuman требует изображение лица и текстовый или аудио драйвер; форматы и лимиты — в README инференса.
Это общие видеосистемы. daVinci-MagiHuman ориентирован на говорящую голову аудио‑видео с открытыми весами.
Apache 2.0 допускает коммерческое использование daVinci-MagiHuman на условиях лицензии. Проверьте обязанности при распространении контента, сгенерированного daVinci-MagiHuman.
Используйте карточку модели и связанный Hugging Face Space на этой странице или клонируйте GitHub для скриптов и чекпоинтов daVinci-MagiHuman.
Охват daVinci-MagiHuman зависит от модели и данных; список языков — в README.
Пропускная способность daVinci-MagiHuman зависит от класса GPU и разрешения; в отчётах для коротких клипов указывают H100; слабее GPU — ниже разрешение или дистилляция.
Для daVinci-MagiHuman: чёткое фото анфас, ровный свет, нейтральное или выразительное лицо. Избегайте сильного перекрытия, экстремальных ракурсов и низкого разрешения.
Да, если путь инференса daVinci-MagiHuman поддерживает аудио‑кондиционирование; форматы и длительности — в документации.
Веса daVinci-MagiHuman — Apache 2.0; сгенерированный контент регулируется вашим использованием, правами на входы и применимым правом.
Issues в репозитории GitHub GAIR-NLP/daVinci-MagiHuman с логами, железом и шагами воспроизведения.
Попробуйте публичный Space, скачайте веса daVinci-MagiHuman на Hugging Face или клонируйте открытый daVinci-MagiHuman на GitHub. Все пути следуют одному потоку davinci-magihuman / daVinci-MagiHuman.
Хостинговая демо daVinci-MagiHuman для быстрого теста без установки.
Скачайте чекпоинты daVinci-MagiHuman и смотрите карточку модели для форматов, вариантов и лицензии.
Клонируйте скрипты инференса daVinci-MagiHuman, открывайте issues и следите за релизами.