100% Lokal · DSGVO

Coqui XTTS V2

von Coqui AI (Community) · Lizenz: MPL 2.0 · Kommerziell nutzbar

Mehrsprachige Sprachsynthese mit Voice Cloning aus 6 Sekunden Audio

4.0 Gesamt

Verfügbare Größen: 400M

Website HuggingFace

Was ist Coqui XTTS V2?

Coqui XTTS V2 ist ein fortschrittliches Text-zu-Sprache-Modell, das sich besonders durch seine beeindruckende Voice-Cloning-Fähigkeit auszeichnet: Bereits aus einem 6-sekündigen Audioclip kann das Modell eine Stimme klonen und in 17 Sprachen synthesieren, darunter auch Deutsch. XTTS basiert auf einer autoregressiven Transformer-Architektur mit einem VQ-VAE-Modul und erreicht dabei Streaming-Latenzen unter 200 Millisekunden — schnell genug für interaktive Anwendungen wie Sprachassistenten und Echtzeit-Synchronisation. Das Modell wurde von Coqui AI entwickelt, das Unternehmen hat jedoch den Betrieb eingestellt.

Die aktive Open-Source-Community pflegt das Projekt weiter unter der Mozilla Public License 2.0. XTTS V2 bietet deutlich natürlichere Sprachausgabe als regelbasierte Systeme und übertrifft in Blindtests häufig andere Open-Source-TTS-Lösungen. Die Hardware-Anforderungen sind moderat: Für optimale Echtzeit-Performance empfiehlt sich eine GPU mit mindestens 4 GB VRAM, die CPU-Nutzung ist möglich aber deutlich langsamer.

Die Integration erfolgt über die Coqui-TTS-Python-Bibliothek oder als Server über Docker, der eine OpenAI-kompatible API bereitstellt. XTTS eignet sich besonders für Projekte, die personalisierte Stimmen benötigen — von Hörbuch-Produktion über barrierefreie Anwendungen bis hin zu individuellen Sprachassistenten, komplett offline und datenschutzkonform.

Fähigkeiten-Matrix

Was kann Coqui XTTS V2 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

4.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
400M	4 GB	4 GB	✓ Ja (langsam)	fp32	RTX 3060

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?