Fuyu-8B
von Adept AI · Lizenz: cc-by-nc-4.0 · Eingeschränkte Lizenz
Multimodales Modell für Bild-zu-Text ohne separate Vision-Encoder
Was ist Fuyu-8B?
Fuyu-8B ist ein multimodales Sprachmodell von Adept AI, das einen radikal anderen Ansatz zur Bildverarbeitung verfolgt als die meisten Vision-Language-Modelle. Anstatt einen separaten Vision-Encoder (wie CLIP) zu verwenden, verarbeitet Fuyu Bilder direkt als linearisierte Pixel-Patches im selben Transformer, der auch den Text verarbeitet. Diese vereinfachte Architektur hat mehrere Vorteile: Es gibt keine Einschränkung bei der Bildauflösung, die Latenz ist geringer, und das Modell kann Bilder beliebiger Seitenverhältnisse verarbeiten.
Fuyu-8B wurde gezielt für UI-Verständnis und Dokumentenanalyse optimiert und kann Screenshots, Diagramme, Formulare und technische Zeichnungen analysieren. Es beantwortet Fragen zu Bildinhalten, extrahiert Text aus Screenshots und kann die Struktur von Benutzeroberflächen beschreiben. Mit 8 Milliarden Parametern ist Fuyu vergleichsweise kompakt, liefert aber bei seinen Kernaufgaben solide Ergebnisse.
Die Textgenerierung auf Basis von Bildern ist flüssig und detailliert, wobei die englische Sprachqualität deutlich besser ist als die deutsche. Für Entwickler, die lokale Bildanalyse und OCR-ähnliche Funktionalität ohne Cloud-Dienste benötigen, bietet Fuyu einen interessanten Ansatz. Die Hardware-Anforderungen liegen bei etwa 8 GB VRAM für flüssigen Betrieb.
Das Modell ist über Hugging Face verfügbar und lässt sich mit der Transformers-Bibliothek direkt nutzen. Die CC-BY-NC-Lizenz erlaubt nicht-kommerzielle Nutzung, für kommerzielle Anwendungen ist eine Lizenzierung bei Adept erforderlich.
Fähigkeiten-Matrix
Was kann Fuyu-8B — und was nicht?
Unterstützte Programmiersprachen: Python
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 8B | 16 GB | 8 GB | ✗ Nein | FP16 | RTX 3070 8GB oder RTX 4060 Ti 16GB |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?