100% Lokal · DSGVO

DeepFloyd IF

von DeepFloyd / Stability AI · Lizenz: DeepFloyd IF License (non-commercial) · Eingeschränkte Lizenz

Mehrstufiges Pixel-Diffusionsmodell mit herausragender Textwiedergabe

3.5 Gesamt

Verfügbare Größen: 400M 900M 4.3B

Website HuggingFace

Was ist DeepFloyd IF?

DeepFloyd IF ist ein innovatives Text-zu-Bild-Modell von DeepFloyd (ein StabilityAI-Labor), das eine kaskadierte Pixel-Diffusionsarchitektur verwendet. Im Gegensatz zu latenten Diffusionsmodellen arbeitet IF direkt im Pixelraum, was zu besonders scharfen und detaillierten Bildern fuehrt. Das Modell besteht aus drei Stufen: einer Basis-Stufe bei 64x64, einem ersten Upscaler auf 256x256 und einem finalen Super-Resolution-Schritt auf 1024x1024.

Besonders bemerkenswert ist die herausragende Fähigkeit zur korrekten Textwiedergabe in Bildern - ein Bereich, in dem viele andere Modelle scheitern. DeepFloyd IF nutzt T5-XXL als Text-Encoder, was ein tieferes Verstaendnis komplexer Prompts ermöglicht. Die drei Varianten des Basismodells (400M, 900M, 4.3B Parameter) bieten Flexibilitaet bei der Hardware-Wahl.

Für die Basisstufe reicht eine GPU mit 12 GB VRAM, die vollständige Pipeline benötigt allerdings deutlich mehr Speicher. Die Lizenz erlaubt die nicht-kommerzielle Nutzung. DeepFloyd IF ist über die Diffusers-Bibliothek einfach einzurichten und eignet sich ideal für Anwender, die Wert auf präzise Textwiedergabe in generierten Bildern legen.

Die Ergebnisse überzeugen besonders bei Postern, Logos und Infografiken. Die Community hat zahlreiche Workflow-Integrationen entwickelt, die DeepFloyd IF mit anderen Modellen kombinieren. Für Grafiker und Designer, die Wert auf korrekte Schriftdarstellung in generierten Bildern legen, bleibt DeepFloyd IF eine der besten verfügbaren Optionen im Open-Source-Bereich.

Fähigkeiten-Matrix

Was kann DeepFloyd IF — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

4.5

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
900M	16 GB	12 GB	✗ Nein	fp16	RTX 3060 12GB
4.3B	32 GB	24 GB	✗ Nein	fp16	RTX 4090 24GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.0/5

Inference-Speed ★★☆☆☆ 2.5/5

RAM/VRAM-Effizienz ★★★☆☆ 3.0/5

War diese Übersicht hilfreich?