100% Lokal · DSGVO

Coqui XTTS V2

von Coqui AI (Community) · Lizenz: MPL 2.0 · Kommerziell nutzbar

Mehrsprachige Sprachsynthese mit Voice Cloning aus 6 Sekunden Audio

4.0 Gesamt
Verfügbare Größen: 400M

Was ist Coqui XTTS V2?

Coqui XTTS V2 ist ein fortschrittliches Text-zu-Sprache-Modell, das sich besonders durch seine beeindruckende Voice-Cloning-Fähigkeit auszeichnet: Bereits aus einem 6-sekündigen Audioclip kann das Modell eine Stimme klonen und in 17 Sprachen synthesieren, darunter auch Deutsch. XTTS basiert auf einer autoregressiven Transformer-Architektur mit einem VQ-VAE-Modul und erreicht dabei Streaming-Latenzen unter 200 Millisekunden — schnell genug für interaktive Anwendungen wie Sprachassistenten und Echtzeit-Synchronisation. Das Modell wurde von Coqui AI entwickelt, das Unternehmen hat jedoch den Betrieb eingestellt.

Die aktive Open-Source-Community pflegt das Projekt weiter unter der Mozilla Public License 2.0. XTTS V2 bietet deutlich natürlichere Sprachausgabe als regelbasierte Systeme und übertrifft in Blindtests häufig andere Open-Source-TTS-Lösungen. Die Hardware-Anforderungen sind moderat: Für optimale Echtzeit-Performance empfiehlt sich eine GPU mit mindestens 4 GB VRAM, die CPU-Nutzung ist möglich aber deutlich langsamer.

Die Integration erfolgt über die Coqui-TTS-Python-Bibliothek oder als Server über Docker, der eine OpenAI-kompatible API bereitstellt. XTTS eignet sich besonders für Projekte, die personalisierte Stimmen benötigen — von Hörbuch-Produktion über barrierefreie Anwendungen bis hin zu individuellen Sprachassistenten, komplett offline und datenschutzkonform.

Fähigkeiten-Matrix

Was kann Coqui XTTS V2 — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
✍️ Kreatives Schreiben
4.0

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
400M 4 GB 4 GB ✓ Ja (langsam) fp32 RTX 3060

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★☆☆ 3.5/5
RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?