Whisper Large V3
von OpenAI · Lizenz: MIT · Kommerziell nutzbar
Führendes lokales Spracherkennungsmodell mit 99 Sprachen
Was ist Whisper Large V3?
Whisper Large V3 ist OpenAIs leistungsstärkstes Spracherkennungsmodell und der Goldstandard für lokale Speech-to-Text-Anwendungen. Mit 1,55 Milliarden Parametern und einer Encoder-Decoder-Transformer-Architektur verarbeitet das Modell Audio in 30-Sekunden-Segmenten, die als 128-Kanal-Log-Mel-Spektrogramme kodiert werden. Im Vergleich zum Vorgänger Large V2 reduziert V3 die Fehlerrate um 10 bis 20 Prozent über eine Vielzahl von Sprachen hinweg und erreicht auf kurzen Audiosequenzen eine Wortfehlerrate von nur 8,4 Prozent.
Das Modell unterstützt 99 Sprachen und verarbeitet Audio mit bis zu 216-facher Echtzeit-Geschwindigkeit auf moderner Hardware. Besonders hervorzuheben ist die Turbo-Variante, die durch Reduzierung der Decoder-Schichten von 32 auf 4 eine 5,4-fache Beschleunigung erzielt, bei Qualität vergleichbar mit Large V2. Whisper wurde auf über einer Million Stunden schwach gelabelter Audiodaten und vier Millionen Stunden pseudogelabelter Daten trainiert.
Für die lokale Nutzung stehen verschiedene Implementierungen bereit: das offizielle OpenAI-Repository, die schnellere CTranslate2-basierte Faster-Whisper-Variante oder die Integration in whisper.cpp für CPU-optimierte Inferenz. Das Modell eignet sich hervorragend für Transkription, Untertitelung, Sprachsteuerung und Übersetzung. Mit einer MIT-Lizenz ist Whisper auch für kommerzielle Projekte uneingeschränkt einsetzbar und bietet eine datenschutzkonforme Alternative zu Cloud-basierten Transkriptionsdiensten.
Fähigkeiten-Matrix
Was kann Whisper Large V3 — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 1.55B (large-v3) | 8 GB | 6 GB | ✓ Ja (langsam) | fp16 | RTX 3060 6GB |
| 769M (medium) | 4 GB | 4 GB | ✓ Ja (langsam) | fp16 | GTX 1660 |
| 244M (small) | 2 GB | 2 GB | ✓ Ja (langsam) | fp32 | Nicht nu00f6tig |
Kompatibilität
Bewertung
Weitere Whisper-Modelle
Faster Whisper
Bis zu 4x schnellere Whisper-Transkription mit CTranslate2-Backend
War diese Übersicht hilfreich?