100% Lokal · DSGVO

DocTR

von Mindee · Lizenz: Apache 2.0 · Kommerziell nutzbar

End-to-End-Dokumentenerkennung mit Deep Learning

4.0 Gesamt

Verfügbare Größen: ~30M

Website HuggingFace

Was ist DocTR?

DocTR (Document Text Recognition) ist ein von Mindee entwickeltes Open-Source-Framework für die End-to-End-Dokumentenerkennung mittels Deep Learning. Das System bietet eine vollständige Pipeline von der Textdetektion über die Erkennung bis zur Strukturanalyse und kann sowohl Bilder als auch PDFs verarbeiten. DocTR nutzt moderne Architekturen wie DBNet für die Textdetektion und CRNN oder ViTSTR für die Texterkennung und erreicht dabei State-of-the-Art-Genauigkeit bei mehreren Benchmark-Datensaetzen.

Besonders hervorzuheben ist die Unterstützung für verschiedene Dokumenttypen: Rechnungen, Ausweise, Formulare, Briefe und handschriftliche Notizen werden zuverlässig verarbeitet. DocTR ist in zwei Backends verfügbar - TensorFlow und PyTorch - und bietet vortrainierte Modelle für Französisch, Englisch und weitere Sprachen. Deutsche Texte werden über das Multilingual-Modell gut erkannt.

Das System laeuft effizient auf CPU und GPU und benötigt nur minimale Ressourcen. Die Apache-2.0-Lizenz erlaubt den uneingeschraenkten kommerziellen Einsatz. DocTR eignet sich besonders für Unternehmen, die Dokumentenverarbeitung automatisieren möchten, ohne auf Cloud-APIs angewiesen zu sein.

Die Python-API ist intuitiv und gut dokumentiert. Die modulare Architektur ermöglicht es, einzelne Komponenten auszutauschen oder eigene Modelle zu trainieren. DocTR profitiert von Mindees Expertise in der Dokumentenverarbeitung und wird regelmäßig aktualisiert.

Für den DACH-Markt ist die lokale Ausführung besonders attraktiv, da sensible Dokumente niemals das Unternehmensnetzwerk verlassen müssen.

Fähigkeiten-Matrix

Was kann DocTR — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
30M	2 GB	0 GB	✓ Ja (langsam)	fp32	Keine GPU nötig, CPU genügt

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?