100% Lokal · DSGVO

Surya OCR

von VikParuchuri · Lizenz: GPL-3.0 · Eingeschränkte Lizenz

Mehrsprachige OCR mit Layout-Erkennung und Tabellen-Extraktion

4.5 Gesamt
Verfügbare Größen: ~200M

Was ist Surya OCR?

Surya ist ein hochmodernes Open-Source-OCR-System, das Texterkennung, Layout-Analyse und Tabellen-Extraktion in einem Paket vereint. Das von VikParuchuri entwickelte System unterstützt über 90 Sprachen, darunter Deutsch auf exzellentem Niveau, und übertrifft in vielen Benchmarks sogar kommerzielle OCR-Lösungen wie Google Cloud Vision. Surya basiert auf einer Transformer-Architektur und nutzt Vision-Encoder für die präzise Erkennung von Text in Bildern, PDFs und gescannten Dokumenten.

Besonders beeindruckend ist die Layout-Erkennung, die Überschriften, Absaetze, Tabellen und Listen korrekt identifiziert und strukturiert ausgibt. Die Tabellen-Extraktion erzeugt direkt nutzbare strukturierte Daten. Surya laeuft effizient auf Consumer-Hardware - bereits eine GPU mit 4 GB VRAM reicht für die meisten Dokumente, und sogar der CPU-Betrieb ist möglich wenngleich langsamer.

Die GPL-3.0-Lizenz erlaubt den Einsatz in Open-Source-Projekten. Für Unternehmen bietet der Entwickler eine kommerzielle Lizenz an. Surya eignet sich hervorragend für die Digitalisierung von Archiven, die automatische Dokumentenverarbeitung und die DSGVO-konforme lokale Texterkennung ohne Cloud-Abhängigkeit.

Die Integration in bestehende Dokumentenverarbeitungspipelines ist dank der Python-API unkompliziert. Surya wird regelmäßig aktualisiert und die Genauigkeit verbessert sich mit jeder Version. Für den deutschen Markt ist die exzellente Unterstützung der deutschen Sprache einschließlich Umlauten und Sonderzeichen besonders wertvoll.

Fähigkeiten-Matrix

Was kann Surya OCR — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
5.0
🧮 Mathematik / Logik
✍️ Kreatives Schreiben

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
200M 4 GB 4 GB ✓ Ja (langsam) fp16 Jede GPU mit 4GB VRAM, CPU möglich

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★★☆ 4.0/5
RAM/VRAM-Effizienz ★★★★☆ 4.5/5

War diese Übersicht hilfreich?