100% Lokal · DSGVO

MetaVoice-1B

von MetaVoice · Lizenz: apache-2.0 · Kommerziell nutzbar

Zero-Shot-Voice-Cloning-TTS mit nur wenigen Sekunden Referenzaudio

3.5 Gesamt

Verfügbare Größen: 1.2B

Website HuggingFace

Was ist MetaVoice-1B?

MetaVoice-1B ist ein fortschrittliches Text-to-Speech-Modell, das sich auf Zero-Shot-Voice-Cloning spezialisiert hat — die Fähigkeit, eine beliebige Stimme nach nur wenigen Sekunden Referenzaudio zu reproduzieren. Das Modell wurde von MetaVoice entwickelt und kombiniert einen Transformer-basierten Sprachmodell-Ansatz mit einem neuronalen Audio-Codec, um natürlich klingende Sprache in hoher Qualität zu erzeugen. Mit 1,2 Milliarden Parametern gehört MetaVoice-1B zu den leistungsfähigeren Open-Source-TTS-Modellen und liefert besonders bei englischen Texten beeindruckend natürliche Ergebnisse.

Die Stimmenklonierung funktioniert bereits mit 10-30 Sekunden Referenzaudio erstaunlich gut — Tonfall, Sprechrhythmus und Stimmcharakter werden zuverlässig übernommen. Neben dem Voice Cloning unterstützt MetaVoice auch verschiedene vortrainierte Stimmen für den sofortigen Einsatz. Die emotionale Expressivität liegt zwischen neutralen TTS-Systemen und dem kreativeren Bark — die Sprache klingt natürlich, aber weniger theatralisch.

Die Audioqualität ist mit 24 kHz gut und für Podcasts, Hörbücher und Anwendungsdemos ausreichend. Für den lokalen Betrieb werden etwa 4-6 GB VRAM empfohlen, wobei auch CPU-Inferenz möglich ist. Die Installation erfolgt über das offizielle Python-Paket und ist mit wenigen Befehlen erledigt.

MetaVoice-1B ist unter der Apache-2.0-Lizenz kommerziell nutzbar, was es für Unternehmen interessant macht, die personalisierte Sprachausgabe ohne Cloud-Abhängigkeit implementieren möchten. Für alle, die lokales Voice Cloning oder hochwertige TTS-Synthese benötigen, ist MetaVoice-1B eine der besten Open-Source-Optionen.

Fähigkeiten-Matrix

Was kann MetaVoice-1B — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

4.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1.2B	8 GB	5 GB	✓ Ja (langsam)	FP16	RTX 3060 12GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?