Surya OCR
von VikParuchuri · Lizenz: GPL-3.0 · Eingeschränkte Lizenz
Mehrsprachige OCR mit Layout-Erkennung und Tabellen-Extraktion
Was ist Surya OCR?
Surya ist ein hochmodernes Open-Source-OCR-System, das Texterkennung, Layout-Analyse und Tabellen-Extraktion in einem Paket vereint. Das von VikParuchuri entwickelte System unterstützt über 90 Sprachen, darunter Deutsch auf exzellentem Niveau, und übertrifft in vielen Benchmarks sogar kommerzielle OCR-Lösungen wie Google Cloud Vision. Surya basiert auf einer Transformer-Architektur und nutzt Vision-Encoder für die präzise Erkennung von Text in Bildern, PDFs und gescannten Dokumenten.
Besonders beeindruckend ist die Layout-Erkennung, die Überschriften, Absaetze, Tabellen und Listen korrekt identifiziert und strukturiert ausgibt. Die Tabellen-Extraktion erzeugt direkt nutzbare strukturierte Daten. Surya laeuft effizient auf Consumer-Hardware - bereits eine GPU mit 4 GB VRAM reicht für die meisten Dokumente, und sogar der CPU-Betrieb ist möglich wenngleich langsamer.
Die GPL-3.0-Lizenz erlaubt den Einsatz in Open-Source-Projekten. Für Unternehmen bietet der Entwickler eine kommerzielle Lizenz an. Surya eignet sich hervorragend für die Digitalisierung von Archiven, die automatische Dokumentenverarbeitung und die DSGVO-konforme lokale Texterkennung ohne Cloud-Abhängigkeit.
Die Integration in bestehende Dokumentenverarbeitungspipelines ist dank der Python-API unkompliziert. Surya wird regelmäßig aktualisiert und die Genauigkeit verbessert sich mit jeder Version. Für den deutschen Markt ist die exzellente Unterstützung der deutschen Sprache einschließlich Umlauten und Sonderzeichen besonders wertvoll.
Fähigkeiten-Matrix
Was kann Surya OCR — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 200M | 4 GB | 4 GB | ✓ Ja (langsam) | fp16 | Jede GPU mit 4GB VRAM, CPU möglich |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?