Coqui XTTS V2
von Coqui AI (Community) · Lizenz: MPL 2.0 · Kommerziell nutzbar
Mehrsprachige Sprachsynthese mit Voice Cloning aus 6 Sekunden Audio
Was ist Coqui XTTS V2?
Coqui XTTS V2 ist ein fortschrittliches Text-zu-Sprache-Modell, das sich besonders durch seine beeindruckende Voice-Cloning-Fähigkeit auszeichnet: Bereits aus einem 6-sekündigen Audioclip kann das Modell eine Stimme klonen und in 17 Sprachen synthesieren, darunter auch Deutsch. XTTS basiert auf einer autoregressiven Transformer-Architektur mit einem VQ-VAE-Modul und erreicht dabei Streaming-Latenzen unter 200 Millisekunden — schnell genug für interaktive Anwendungen wie Sprachassistenten und Echtzeit-Synchronisation. Das Modell wurde von Coqui AI entwickelt, das Unternehmen hat jedoch den Betrieb eingestellt.
Die aktive Open-Source-Community pflegt das Projekt weiter unter der Mozilla Public License 2.0. XTTS V2 bietet deutlich natürlichere Sprachausgabe als regelbasierte Systeme und übertrifft in Blindtests häufig andere Open-Source-TTS-Lösungen. Die Hardware-Anforderungen sind moderat: Für optimale Echtzeit-Performance empfiehlt sich eine GPU mit mindestens 4 GB VRAM, die CPU-Nutzung ist möglich aber deutlich langsamer.
Die Integration erfolgt über die Coqui-TTS-Python-Bibliothek oder als Server über Docker, der eine OpenAI-kompatible API bereitstellt. XTTS eignet sich besonders für Projekte, die personalisierte Stimmen benötigen — von Hörbuch-Produktion über barrierefreie Anwendungen bis hin zu individuellen Sprachassistenten, komplett offline und datenschutzkonform.
Fähigkeiten-Matrix
Was kann Coqui XTTS V2 — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 400M | 4 GB | 4 GB | ✓ Ja (langsam) | fp32 | RTX 3060 |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?