Vosk
von Alpha Cephei · Lizenz: Apache 2.0 · Kommerziell nutzbar
Ultraleichte Offline-Spracherkennung für Embedded und Mobile
Was ist Vosk?
Vosk ist eine kompakte Offline-Spracherkennungsbibliothek, die speziell für ressourcenbeschränkte Geräte wie Raspberry Pi, Smartphones und eingebettete Systeme entwickelt wurde. Im Gegensatz zu den deutlich größeren Whisper-Modellen sind Vosk-Modelle nur 50 bis 300 MB groß und benötigen minimale Rechenleistung, was sie ideal für Geräte ohne GPU macht. Die Bibliothek unterstützt über 20 Sprachen, darunter Deutsch, und bietet APIs für Python, Java, C#, JavaScript, Node.js, Go und weitere Programmiersprachen.
Vosk basiert auf der Kaldi-Spracherkennungstechnologie und nutzt neuronale Netzwerke in Kombination mit traditionellen akustischen Modellen für effiziente Offline-Transkription. Die Erkennung funktioniert in Echtzeit auf der CPU und eignet sich besonders für Sprachsteuerung, einfache Diktatanwendungen und IoT-Geräte. Die Stärken von Vosk liegen in der extrem geringen Latenz, dem minimalen Ressourcenverbrauch und der einfachen Integration in bestehende Projekte.
Allerdings erreicht Vosk bei Hintergrundgeräuschen und komplexen Audioszenarien nicht die Qualität von Whisper. Für Anwendungsfälle, bei denen Geschwindigkeit, Kompaktheit und Offline-Fähigkeit wichtiger sind als maximale Transkriptionsgenauigkeit, ist Vosk eine ausgezeichnete Wahl. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung, und die aktive Community stellt regelmäßig aktualisierte Sprachmodelle bereit.
Fähigkeiten-Matrix
Was kann Vosk — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 300M (large) | 1 GB | 0 GB | ✓ Ja (langsam) | none | Nicht nu00f6tig |
| 50M (small) | 0.5 GB | 0 GB | ✓ Ja (langsam) | none | Nicht nu00f6tig |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?