100% Lokal · DSGVO

Fuyu-8B

von Adept AI · Lizenz: cc-by-nc-4.0 · Eingeschränkte Lizenz

Multimodales Modell für Bild-zu-Text ohne separate Vision-Encoder

3.0 Gesamt

Verfügbare Größen: 8B

Website HuggingFace

Was ist Fuyu-8B?

Fuyu-8B ist ein multimodales Sprachmodell von Adept AI, das einen radikal anderen Ansatz zur Bildverarbeitung verfolgt als die meisten Vision-Language-Modelle. Anstatt einen separaten Vision-Encoder (wie CLIP) zu verwenden, verarbeitet Fuyu Bilder direkt als linearisierte Pixel-Patches im selben Transformer, der auch den Text verarbeitet. Diese vereinfachte Architektur hat mehrere Vorteile: Es gibt keine Einschränkung bei der Bildauflösung, die Latenz ist geringer, und das Modell kann Bilder beliebiger Seitenverhältnisse verarbeiten.

Fuyu-8B wurde gezielt für UI-Verständnis und Dokumentenanalyse optimiert und kann Screenshots, Diagramme, Formulare und technische Zeichnungen analysieren. Es beantwortet Fragen zu Bildinhalten, extrahiert Text aus Screenshots und kann die Struktur von Benutzeroberflächen beschreiben. Mit 8 Milliarden Parametern ist Fuyu vergleichsweise kompakt, liefert aber bei seinen Kernaufgaben solide Ergebnisse.

Die Textgenerierung auf Basis von Bildern ist flüssig und detailliert, wobei die englische Sprachqualität deutlich besser ist als die deutsche. Für Entwickler, die lokale Bildanalyse und OCR-ähnliche Funktionalität ohne Cloud-Dienste benötigen, bietet Fuyu einen interessanten Ansatz. Die Hardware-Anforderungen liegen bei etwa 8 GB VRAM für flüssigen Betrieb.

Das Modell ist über Hugging Face verfügbar und lässt sich mit der Transformers-Bibliothek direkt nutzen. Die CC-BY-NC-Lizenz erlaubt nicht-kommerzielle Nutzung, für kommerzielle Anwendungen ist eine Lizenzierung bei Adept erforderlich.

Fähigkeiten-Matrix

Was kann Fuyu-8B — und was nicht?

🇩🇪 Deutsch-Chat

1.5

🇬🇧 Englisch-Chat

3.0

🗣️ Multilingual

1.5

💻 Code-Generierung

1.0

🌍 Übersetzung

1.0

📋 Zusammenfassung

2.5

📄 RAG / Dokumente

1.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

1.5

✍️ Kreatives Schreiben

2.0

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
8B	16 GB	8 GB	✗ Nein	FP16	RTX 3070 8GB oder RTX 4060 Ti 16GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✓ vLLM

✗ Open WebUI

✓ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.0/5

Inference-Speed ★★★☆☆ 3.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?