100% Lokal · DSGVO

Surya OCR

von VikParuchuri · Lizenz: GPL-3.0 · Eingeschränkte Lizenz

Mehrsprachige OCR mit Layout-Erkennung und Tabellen-Extraktion

4.5 Gesamt

Verfügbare Größen: ~200M

Website HuggingFace

Was ist Surya OCR?

Surya ist ein hochmodernes Open-Source-OCR-System, das Texterkennung, Layout-Analyse und Tabellen-Extraktion in einem Paket vereint. Das von VikParuchuri entwickelte System unterstützt über 90 Sprachen, darunter Deutsch auf exzellentem Niveau, und übertrifft in vielen Benchmarks sogar kommerzielle OCR-Lösungen wie Google Cloud Vision. Surya basiert auf einer Transformer-Architektur und nutzt Vision-Encoder für die präzise Erkennung von Text in Bildern, PDFs und gescannten Dokumenten.

Besonders beeindruckend ist die Layout-Erkennung, die Überschriften, Absaetze, Tabellen und Listen korrekt identifiziert und strukturiert ausgibt. Die Tabellen-Extraktion erzeugt direkt nutzbare strukturierte Daten. Surya laeuft effizient auf Consumer-Hardware - bereits eine GPU mit 4 GB VRAM reicht für die meisten Dokumente, und sogar der CPU-Betrieb ist möglich wenngleich langsamer.

Die GPL-3.0-Lizenz erlaubt den Einsatz in Open-Source-Projekten. Für Unternehmen bietet der Entwickler eine kommerzielle Lizenz an. Surya eignet sich hervorragend für die Digitalisierung von Archiven, die automatische Dokumentenverarbeitung und die DSGVO-konforme lokale Texterkennung ohne Cloud-Abhängigkeit.

Die Integration in bestehende Dokumentenverarbeitungspipelines ist dank der Python-API unkompliziert. Surya wird regelmäßig aktualisiert und die Genauigkeit verbessert sich mit jeder Version. Für den deutschen Markt ist die exzellente Unterstützung der deutschen Sprache einschließlich Umlauten und Sonderzeichen besonders wertvoll.

Fähigkeiten-Matrix

Was kann Surya OCR — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

5.0

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
200M	4 GB	4 GB	✓ Ja (langsam)	fp16	Jede GPU mit 4GB VRAM, CPU möglich

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

War diese Übersicht hilfreich?