100% Lokal · DSGVO

Bunny

von BAAI · Lizenz: apache-2.0 · Kommerziell nutzbar

Kompaktes Vision-Language-Modell mit effizientem Training

3.0 Gesamt

Verfügbare Größen: 3B 4B 8B

ollama run bunny-llama3 Website HuggingFace

Was ist Bunny?

Bunny ist ein kompaktes, aber leistungsfähiges Vision-Language-Modell der Beijing Academy of Artificial Intelligence (BAAI), das mit einem besonders effizienten Trainingsansatz entwickelt wurde. Das Modell nutzt eine clevere Kombination aus einem vortrainierten Sprachmodell und dem SigLIP Vision-Encoder, verbunden durch einen einfachen MLP-Projektor. Trotz seiner vergleichsweise geringen Größe von 3-8 Milliarden Parametern erreicht Bunny in Vision-Language-Benchmarks erstaunlich gute Ergebnisse und übertrifft in einigen Tests sogar deutlich größere Modelle.

Bunny ist in mehreren Varianten verfügbar: Bunny-3B basiert auf Phi-2, Bunny-4B auf Phi-3 und Bunny-8B auf Llama-3. Jede Variante bietet einen unterschiedlichen Kompromiss zwischen Leistung und Effizienz. Das Modell kann Bilder beschreiben, Fragen zu visuellen Inhalten beantworten, Text in Bildern erkennen und einfache visuelle Schlussfolgerungen ziehen.

Die Stärke von Bunny liegt in seiner Effizienz: Die 3B-Variante läuft mit nur 3 GB VRAM und ist damit selbst auf Consumer-Laptops mit einfacher GPU einsetzbar. Die Bildanalyse-Qualität ist für diese Modellgröße bemerkenswert — besonders bei klaren Fotos und Screenshots liefert Bunny präzise Beschreibungen. Bei komplexen Szenen oder abstrakten Bildern zeigen sich naturgemäß die Grenzen der kompakten Architektur.

Die Sprachausgabe erfolgt primär auf Englisch, eine grundlegende deutsche Unterstützung ist bei den größeren Varianten vorhanden. Bunny lässt sich über die Transformers-Bibliothek und Ollama nutzen und ist unter der Apache-2.0-Lizenz kommerziell einsetzbar.

Fähigkeiten-Matrix

Was kann Bunny — und was nicht?

🇩🇪 Deutsch-Chat

1.5

🇬🇧 Englisch-Chat

3.0

🗣️ Multilingual

1.5

💻 Code-Generierung

1.0

🌍 Übersetzung

1.0

📋 Zusammenfassung

2.5

📄 RAG / Dokumente

1.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

4.0

🧮 Mathematik / Logik

2.0

✍️ Kreatives Schreiben

2.0

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
3B	4 GB	3 GB	✓ Ja (langsam)	Q4_K_M	Integrierte GPU oder RTX 3050
8B	12 GB	6 GB	✓ Ja (langsam)	Q4_K_M	RTX 3060 12GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.0/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

War diese Übersicht hilfreich?