daVinci-MagiHuman – Ücretsiz çevrimiçi AI konuşan baş video oluşturucu

Bir portre ve senaryo veya sesle, daVinci-MagiHuman ile birlikte üretilen ses ve görüntüyle dudak senkronlu konuşan video elde edin.

Bu davinci-magihuman rehberi, stüdyomuzdakiyle aynı daVinci-MagiHuman yığınını sunar: açık ağırlıklar, Apache 2.0 ve hizalı ses ve görüntü için tek model. daVinci-MagiHuman özelliklerini hızlıca görmek için davinci-magihuman sayfasını yer imlerine ekleyin.

daVinci-MagiHuman nedir?

Açık model ve araştırma ortakları

daVinci-MagiHuman, Sand.ai ve GAIR Lab (Şanghay Jiao Tong Üniversitesi) tarafından Apache 2.0 ile geliştirilen 15B açık kaynak bir yapay zeka modelidir: ağırlıkları inceleyin, yerelde çıkarım yapın ve lisans kapsamında ticari kullanın.

Birleşik ses–görüntü üretimi

daVinci-MagiHuman bir portre artı metin veya ses alır ve eşleşen sesli konuşan baş videosu üretir. daVinci-MagiHuman’ın tek akışlı Transformer’ı görüntü ve sesi ayrı boru hatları yerine birlikte gürültüden arındırır.

Hız, kalite ve kıyaslar

NVIDIA H100 üzerinde daVinci-MagiHuman, ~2 saniye içerik için ~2 saniyede kısa bir 256p klip üretebilir (ayarlara ve donanıma bağlı). daVinci-MagiHuman değerlendirmeleri düşük WER ve birçok temel modele karşı güçlü insan tercihi gösterir.

Öne çıkan özellikler

Ses–görüntü avatarları için daVinci-MagiHuman’ı değerlendirmek için altı neden — modeli davinci-magihuman anahtar kelimesiyle veya makalelerle bulsanız da aynı daVinci-MagiHuman avantajları geçerlidir.

Birleşik ses + görüntü

daVinci-MagiHuman her iki modaliteyi tek geçişte üretir — ayrı TTS ve sonra video yapıştırma yok.

Referans fotoğraf

daVinci-MagiHuman konuşan baş için tek bir portreyi görsel çapa olarak kullanır.

Çok dilli

daVinci-MagiHuman birden çok dilde dudak senkronizasyonu destekler (eğitim verisi ve sürüm notlarına bağlı).

Açık kaynak

Apache 2.0 — daVinci-MagiHuman ağırlıkları lisans çerçevesinde ticari kullanım ve genişletme için uygundur.

Hızlı çıkarım

daVinci-MagiHuman: H100 sınıfı GPU’da 256p için ~2 sn’de ~2 sn içerik (yaklaşık).

Üst düzey kalite

Yayınlanan değerlendirmelerde daVinci-MagiHuman, Ovi 1.1 ve LTX 2.3’e karşı güçlü WER ve tercih sonuçları verir.

daVinci-MagiHuman karşılaştırması

Yönlendirici özet; sayılar kıyas ve istemlere göre değişir. daVinci-MagiHuman ~%14,6 WER bildirir; Ovi 1.1 ~%40,5; insan karşılaştırmalarında Ovi ve LTX 2.3’e karşı büyük üstünlük sağlar.

WER ve konuşma netliği

Daha düşük WER genelde daVinci-MagiHuman için daha net konuşma anlamına gelir. Tablo, daVinci-MagiHuman’ın açık taban olduğu benzer protokollerdeki aralıkları karşılaştırır.

İnsan tercihi

Yan yana çalışmalar doğallık ve uyum için tercih edilen çıktıları gösterir — daVinci-MagiHuman’ın kapalı modelleri geçtiği durumlar dahil.

Lisans ve gecikme

Açık Apache 2.0 ağırlıkları daVinci-MagiHuman’ı kendiniz barındırmanıza izin verir; özel yığınlar kapalıdır; her daVinci-MagiHuman işi için süre GPU ve çözünürlüğe göre değişir.

ModelWER (↓)İnsan tercihiLisansHız (yaklaşık)
daVinci-MagiHuman~%14,6Ovi 1.1’e karşı ~%80; LTX 2.3’e karşı güçlüApache 2.01× H100’de 256p için ~2 sn içerik ~2 sn (belirtilen)
Ovi 1.1~%40,5Yayınlanan kıyaslarda daVinci’nin altındaÖzel mülkiyetAPI / dağıtıma göre değişir
LTX 2.3Aynı tabloda daha yüksek WER (değişir)İnsan değerlendirmelerinde daVinci’ye çoğunlukla yenilirÖzel mülkiyetÇözünürlük ve yığına göre değişir

daVinci-MagiHuman nasıl kullanılır

Portre ve senaryo hazırlama

  1. Portre yükleyin — tercihen net önden yüz.
  2. Senaryoyu girin veya ses dosyası yükleyin — model dudakları konuşmayla eşitler.

Çözünürlük seçip oluşturma

  1. Çıkış çözünürlüğünü seçin — örn. 256p, 720p veya 1080p (çıkarım yığını ve VRAM’e göre).
  2. İş bitince konuşan videoyu indirin.

Kendi barındırma ve Hugging Face Hub

Yerel veya sunucuda çalıştırmak için Hub’dan daVinci-MagiHuman kontrol noktalarını alın ve CLI ve ortam için README’yi izleyin. davinci-magihuman URL’si ve daVinci-MagiHuman deposu sürümlerle güncellenir.

Örnek (Python / Hugging Face)

# Load model weights from Hugging Face Hub (see official repo for exact APIs)
from huggingface_hub import snapshot_download

repo_id = "GAIR/daVinci-MagiHuman"
local_dir = snapshot_download(repo_id)
# Follow GAIR-NLP/daVinci-MagiHuman README for inference scripts and CLI flags.

Sık sorulan sorular

daVinci-MagiHuman hakkında on iki yaygın soru — varsayılan olarak açık yanıtlar. davinci-magihuman araması ve daVinci-MagiHuman adı için gruplandı.

daVinci-MagiHuman nedir?

daVinci-MagiHuman, Sand.ai ve GAIR Lab (SJTU)’nin 15B ses–görüntü modelidir; portre artı metin veya sesi dudak senkronlu konuşan klibe dönüştürür.

daVinci-MagiHuman ücretsiz mi?

Açık daVinci-MagiHuman ağırlıkları ve kodu Apache 2.0 altındadır. Barındırılan demolar farklı koşullara sahip olabilir; kendi barındırma lisansa uyar.

Hangi girdiler gerekir?

daVinci-MagiHuman genelde yüz görüntüsü ve metin veya ses sürücüsü ister; biçimler ve limitler çıkarım README’sinde.

Sora veya Veo ile karşılaştırma?

Bunlar genel video sistemleridir. daVinci-MagiHuman açık ağırlıklı ses–görüntü konuşan baş üretimine odaklanır.

Ticari kullanım?

Apache 2.0, koşullar altında daVinci-MagiHuman ticari kullanımına izin verir. daVinci-MagiHuman ile üretilen içeriği dağıtırken yükümlülüklerinizi kontrol edin.

Nereden indirilir veya denenir?

Bu sayfadaki model kartını ve bağlı Hugging Face Space’i kullanın veya GitHub’dan daVinci-MagiHuman betiklerini ve kontrol noktalarını klonlayın.

Dudak senkronizasyonu hangi dillerde?

daVinci-MagiHuman kapsamı modele ve veriye bağlıdır; dil listesi için README’ye bakın.

Hangi GPU veya donanım?

daVinci-MagiHuman verimi GPU sınıfına ve çözünürlüğe bağlıdır; kısa klipler için H100 sınıfı GPU’lar rapor edilir; daha zayıf GPU’lar daha düşük çözünürlük veya damıtma kullanabilir.

En iyi portre sonuçları?

daVinci-MagiHuman ile: net önden fotoğraf, eşit aydınlatma, nötr veya ifadeli yüz. Güçlü kapatma, uç açılar ve çok düşük çözünürlükten kaçının.

Metin yerine temiz ses?

Çıkarım yolu ses koşullandırmayı destekliyorsa evet; biçimler ve süreler için belgelere bakın.

Üretilen çıktıların lisansı?

daVinci-MagiHuman ağırlıkları Apache 2.0; üretilen içerik kullanımınıza, girdi haklarına ve geçerli hukuka tabidir.

Hata bildirimi veya özellik isteği?

GitHub GAIR-NLP/daVinci-MagiHuman deposunda issue’lar, günlükler, donanım ve yeniden üretim adımlarıyla.

Yapay zeka ile konuşan videolar oluşturun

Halka açık Space’i deneyin, Hugging Face’te daVinci-MagiHuman ağırlıklarını indirin veya GitHub’da açık kaynak daVinci-MagiHuman’ı klonlayın. Her yol aynı davinci-magihuman / daVinci-MagiHuman akışını izler.

Tarayıcıdaki Space

Kurulum olmadan hızlı deneme için barındırılan daVinci-MagiHuman demosu.

Hugging Face ağırlıkları

daVinci-MagiHuman kontrol noktalarını indirin; biçimler, varyantlar ve lisans için model kartına bakın.

GitHub kaynak

daVinci-MagiHuman çıkarım betiklerini klonlayın, issue açın ve sürümleri takip edin.