100% Lokal · DSGVO

MetaVoice-1B

von MetaVoice · Lizenz: apache-2.0 · Kommerziell nutzbar

Zero-Shot-Voice-Cloning-TTS mit nur wenigen Sekunden Referenzaudio

3.5 Gesamt
Verfügbare Größen: 1.2B

Was ist MetaVoice-1B?

MetaVoice-1B ist ein fortschrittliches Text-to-Speech-Modell, das sich auf Zero-Shot-Voice-Cloning spezialisiert hat — die Fähigkeit, eine beliebige Stimme nach nur wenigen Sekunden Referenzaudio zu reproduzieren. Das Modell wurde von MetaVoice entwickelt und kombiniert einen Transformer-basierten Sprachmodell-Ansatz mit einem neuronalen Audio-Codec, um natürlich klingende Sprache in hoher Qualität zu erzeugen. Mit 1,2 Milliarden Parametern gehört MetaVoice-1B zu den leistungsfähigeren Open-Source-TTS-Modellen und liefert besonders bei englischen Texten beeindruckend natürliche Ergebnisse.

Die Stimmenklonierung funktioniert bereits mit 10-30 Sekunden Referenzaudio erstaunlich gut — Tonfall, Sprechrhythmus und Stimmcharakter werden zuverlässig übernommen. Neben dem Voice Cloning unterstützt MetaVoice auch verschiedene vortrainierte Stimmen für den sofortigen Einsatz. Die emotionale Expressivität liegt zwischen neutralen TTS-Systemen und dem kreativeren Bark — die Sprache klingt natürlich, aber weniger theatralisch.

Die Audioqualität ist mit 24 kHz gut und für Podcasts, Hörbücher und Anwendungsdemos ausreichend. Für den lokalen Betrieb werden etwa 4-6 GB VRAM empfohlen, wobei auch CPU-Inferenz möglich ist. Die Installation erfolgt über das offizielle Python-Paket und ist mit wenigen Befehlen erledigt.

MetaVoice-1B ist unter der Apache-2.0-Lizenz kommerziell nutzbar, was es für Unternehmen interessant macht, die personalisierte Sprachausgabe ohne Cloud-Abhängigkeit implementieren möchten. Für alle, die lokales Voice Cloning oder hochwertige TTS-Synthese benötigen, ist MetaVoice-1B eine der besten Open-Source-Optionen.

Fähigkeiten-Matrix

Was kann MetaVoice-1B — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
✍️ Kreatives Schreiben
4.0

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
1.2B 8 GB 5 GB ✓ Ja (langsam) FP16 RTX 3060 12GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5
Inference-Speed ★★★☆☆ 3.5/5
RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?