100% Lokal · DSGVO

Nougat

von Meta AI · Lizenz: CC-BY-NC-4.0 · Eingeschränkte Lizenz

Akademische PDF-Dokumente in maschinenlesbares Markdown umwandeln

4.0 Gesamt
Verfügbare Größen: 350M

Was ist Nougat?

Nougat (Neural Optical Understanding for Academic Documents Transformer) ist Metas spezialisiertes Open-Source-Modell zur Umwandlung akademischer PDFs in strukturierten Markdown-Text. Im Gegensatz zu herkömmlichen OCR-Systemen versteht Nougat die Struktur wissenschaftlicher Dokumente und kann mathematische Formeln, Tabellen, Referenzen und Abbildungsverweise korrekt in LaTeX- und Markdown-Syntax konvertieren. Das Modell basiert auf einer Visual Transformer-Architektur (Donut-Framework) und wurde auf einem grossen Korpus wissenschaftlicher Paper trainiert.

Nougat nimmt PDF-Seiten als Bilder entgegen und erzeugt direkt strukturierten Text mit korrekter Formatierung. Besonders beeindruckend ist die präzise Wiedergabe komplexer mathematischer Gleichungen, die für andere OCR-Systeme eine grosse Herausforderung darstellt. Das Modell benötigt eine GPU mit mindestens 6 GB VRAM und verarbeitet eine typische Paper-Seite in wenigen Sekunden.

Die CC-BY-NC-Lizenz erlaubt die akademische und nicht-kommerzielle Nutzung. Nougat ist ideal für Forscher, Bibliotheken und Bildungseinrichtungen, die grosse Mengen an wissenschaftlicher Literatur digitalisieren und durchsuchbar machen möchten. Die lokale Verarbeitung garantiert vollständige Datenkontrolle.

Die Kombination mit RAG-Systemen ermöglicht es, wissenschaftliche Literatur durchsuchbar und analysierbar zu machen. Nougat wird von Meta AI weiterentwickelt und die Community trägt aktiv zur Verbesserung bei. Für Forschungseinrichtungen und Universitäten bietet Nougat eine datenschutzkonforme Lösung zur Digitalisierung wissenschaftlicher Bestände.

Fähigkeiten-Matrix

Was kann Nougat — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.5
🧮 Mathematik / Logik
✍️ Kreatives Schreiben

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
350M 8 GB 6 GB ✓ Ja (langsam) fp16 RTX 3060 12GB, CPU möglich

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★☆☆ 3.5/5
RAM/VRAM-Effizienz ★★★★☆ 4.0/5

War diese Übersicht hilfreich?