100% Lokal · DSGVO

Vosk

von Alpha Cephei · Lizenz: Apache 2.0 · Kommerziell nutzbar

Ultraleichte Offline-Spracherkennung für Embedded und Mobile

3.5 Gesamt
Verfügbare Größen: 50M 300M

Was ist Vosk?

Vosk ist eine kompakte Offline-Spracherkennungsbibliothek, die speziell für ressourcenbeschränkte Geräte wie Raspberry Pi, Smartphones und eingebettete Systeme entwickelt wurde. Im Gegensatz zu den deutlich größeren Whisper-Modellen sind Vosk-Modelle nur 50 bis 300 MB groß und benötigen minimale Rechenleistung, was sie ideal für Geräte ohne GPU macht. Die Bibliothek unterstützt über 20 Sprachen, darunter Deutsch, und bietet APIs für Python, Java, C#, JavaScript, Node.js, Go und weitere Programmiersprachen.

Vosk basiert auf der Kaldi-Spracherkennungstechnologie und nutzt neuronale Netzwerke in Kombination mit traditionellen akustischen Modellen für effiziente Offline-Transkription. Die Erkennung funktioniert in Echtzeit auf der CPU und eignet sich besonders für Sprachsteuerung, einfache Diktatanwendungen und IoT-Geräte. Die Stärken von Vosk liegen in der extrem geringen Latenz, dem minimalen Ressourcenverbrauch und der einfachen Integration in bestehende Projekte.

Allerdings erreicht Vosk bei Hintergrundgeräuschen und komplexen Audioszenarien nicht die Qualität von Whisper. Für Anwendungsfälle, bei denen Geschwindigkeit, Kompaktheit und Offline-Fähigkeit wichtiger sind als maximale Transkriptionsgenauigkeit, ist Vosk eine ausgezeichnete Wahl. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung, und die aktive Community stellt regelmäßig aktualisierte Sprachmodelle bereit.

Fähigkeiten-Matrix

Was kann Vosk — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
3.0
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
✍️ Kreatives Schreiben

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
300M (large) 1 GB 0 GB ✓ Ja (langsam) none Nicht nu00f6tig
50M (small) 0.5 GB 0 GB ✓ Ja (langsam) none Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.0/5
Inference-Speed ★★★★★ 5.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?