100% Lokal · DSGVO

DeepFloyd IF

von DeepFloyd / Stability AI · Lizenz: DeepFloyd IF License (non-commercial) · Eingeschränkte Lizenz

Mehrstufiges Pixel-Diffusionsmodell mit herausragender Textwiedergabe

3.5 Gesamt
Verfügbare Größen: 400M 900M 4.3B

Was ist DeepFloyd IF?

DeepFloyd IF ist ein innovatives Text-zu-Bild-Modell von DeepFloyd (ein StabilityAI-Labor), das eine kaskadierte Pixel-Diffusionsarchitektur verwendet. Im Gegensatz zu latenten Diffusionsmodellen arbeitet IF direkt im Pixelraum, was zu besonders scharfen und detaillierten Bildern fuehrt. Das Modell besteht aus drei Stufen: einer Basis-Stufe bei 64x64, einem ersten Upscaler auf 256x256 und einem finalen Super-Resolution-Schritt auf 1024x1024.

Besonders bemerkenswert ist die herausragende Fähigkeit zur korrekten Textwiedergabe in Bildern - ein Bereich, in dem viele andere Modelle scheitern. DeepFloyd IF nutzt T5-XXL als Text-Encoder, was ein tieferes Verstaendnis komplexer Prompts ermöglicht. Die drei Varianten des Basismodells (400M, 900M, 4.3B Parameter) bieten Flexibilitaet bei der Hardware-Wahl.

Für die Basisstufe reicht eine GPU mit 12 GB VRAM, die vollständige Pipeline benötigt allerdings deutlich mehr Speicher. Die Lizenz erlaubt die nicht-kommerzielle Nutzung. DeepFloyd IF ist über die Diffusers-Bibliothek einfach einzurichten und eignet sich ideal für Anwender, die Wert auf präzise Textwiedergabe in generierten Bildern legen.

Die Ergebnisse überzeugen besonders bei Postern, Logos und Infografiken. Die Community hat zahlreiche Workflow-Integrationen entwickelt, die DeepFloyd IF mit anderen Modellen kombinieren. Für Grafiker und Designer, die Wert auf korrekte Schriftdarstellung in generierten Bildern legen, bleibt DeepFloyd IF eine der besten verfügbaren Optionen im Open-Source-Bereich.

Fähigkeiten-Matrix

Was kann DeepFloyd IF — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.0
🧮 Mathematik / Logik
✍️ Kreatives Schreiben
4.5

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
900M 16 GB 12 GB ✗ Nein fp16 RTX 3060 12GB
4.3B 32 GB 24 GB ✗ Nein fp16 RTX 4090 24GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Open WebUI
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5
Inference-Speed ★★☆☆☆ 2.5/5
RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?