Piper TTS
von Rhasspy / Michael Hansen · Lizenz: MIT · Kommerziell nutzbar
Natürlich klingende lokale Sprachsynthese für über 30 Sprachen
Was ist Piper TTS?
Piper TTS ist ein schnelles, lokales Text-zu-Sprache-System, das von der Rhasspy-Community entwickelt wurde und sich durch besonders natürlich klingende Stimmen auszeichnet. Das Modell nutzt eine VITS-basierte Architektur (Variational Inference with adversarial learning for end-to-end Text-to-Speech) und ist in über 30 Sprachen verfügbar, darunter mehrere deutsche Stimmen in verschiedenen Qualitätsstufen. Die Modelle sind extrem kompakt — typischerweise zwischen 15 und 60 MB — und laufen problemlos auf CPUs, selbst auf einem Raspberry Pi 4.
Piper erzeugt Sprache in Echtzeit ohne GPU und ist damit ideal für Smart-Home-Anwendungen, Sprachassistenten und barrierefreie Software. Die Integration in Home Assistant hat Piper zur beliebtesten Open-Source-TTS-Lösung für lokale Sprachassistenten gemacht. Die Sprachqualität übertrifft ältere Systeme wie eSpeak deutlich und kommt in den besten Stimmen nah an kommerzielle Cloud-Lösungen heran.
Piper unterstützt SSML (Speech Synthesis Markup Language) für feinere Kontrolle über Betonung und Pausen. Die Installation erfolgt als einfaches Kommandozeilen-Tool oder über Docker-Container, und vortrainierte Stimmen können direkt von der Piper-Website heruntergeladen werden. Dank MIT-Lizenz ist Piper vollständig für kommerzielle Zwecke nutzbar und bietet eine datenschutzfreundliche Alternative zu Google TTS, Amazon Polly und anderen Cloud-Diensten.
Fähigkeiten-Matrix
Was kann Piper TTS — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 60M (high quality) | 0.5 GB | 0 GB | ✓ Ja (langsam) | none | Nicht nu00f6tig |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?