100% Lokal · DSGVO

Vosk

von Alpha Cephei · Lizenz: Apache 2.0 · Kommerziell nutzbar

Ultraleichte Offline-Spracherkennung für Embedded und Mobile

3.5 Gesamt

Verfügbare Größen: 50M 300M

Website

Was ist Vosk?

Vosk ist eine kompakte Offline-Spracherkennungsbibliothek, die speziell für ressourcenbeschränkte Geräte wie Raspberry Pi, Smartphones und eingebettete Systeme entwickelt wurde. Im Gegensatz zu den deutlich größeren Whisper-Modellen sind Vosk-Modelle nur 50 bis 300 MB groß und benötigen minimale Rechenleistung, was sie ideal für Geräte ohne GPU macht. Die Bibliothek unterstützt über 20 Sprachen, darunter Deutsch, und bietet APIs für Python, Java, C#, JavaScript, Node.js, Go und weitere Programmiersprachen.

Vosk basiert auf der Kaldi-Spracherkennungstechnologie und nutzt neuronale Netzwerke in Kombination mit traditionellen akustischen Modellen für effiziente Offline-Transkription. Die Erkennung funktioniert in Echtzeit auf der CPU und eignet sich besonders für Sprachsteuerung, einfache Diktatanwendungen und IoT-Geräte. Die Stärken von Vosk liegen in der extrem geringen Latenz, dem minimalen Ressourcenverbrauch und der einfachen Integration in bestehende Projekte.

Allerdings erreicht Vosk bei Hintergrundgeräuschen und komplexen Audioszenarien nicht die Qualität von Whisper. Für Anwendungsfälle, bei denen Geschwindigkeit, Kompaktheit und Offline-Fähigkeit wichtiger sind als maximale Transkriptionsgenauigkeit, ist Vosk eine ausgezeichnete Wahl. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung, und die aktive Community stellt regelmäßig aktualisierte Sprachmodelle bereit.

Fähigkeiten-Matrix

Was kann Vosk — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

3.0

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
300M (large)	1 GB	0 GB	✓ Ja (langsam)	none	Nicht nu00f6tig
50M (small)	0.5 GB	0 GB	✓ Ja (langsam)	none	Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.0/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?