100% Lokal · DSGVO

Moondream 2

von vikhyatk · Lizenz: Apache 2.0 · Kommerziell nutzbar

Winziges Vision-Language-Modell für Bildbeschreibung auf Edge-Geräten

3.5 Gesamt

Verfügbare Größen: 1.86B

ollama run moondream Website HuggingFace

Was ist Moondream 2?

Moondream 2 ist ein bemerkenswertes kleines Vision-Language-Modell mit nur 1,86 Milliarden Parametern, das Bilderkennung und Sprachverständnis in einem kompakten Paket vereint. Das Modell kombiniert den SigLIP-Vision-Encoder mit dem Phi-1.5-Sprachmodell und kann damit Bilder analysieren, beschreiben und Fragen zu visuellen Inhalten beantworten. Trotz seiner geringen Größe zeigt Moondream 2 beeindruckende Fähigkeiten bei der Bildbeschreibung, Objekterkennung und dem visuellen Reasoning.

Das Modell wurde speziell für ressourcenbeschränkte Umgebungen entwickelt und läuft problemlos auf Geräten mit niedrigen Ressourcen — von Laptops ohne GPU bis hin zu Einplatinenrechnern. Mit einem Speicherbedarf von nur 2 bis 4 GB RAM eignet sich Moondream ideal für Edge-Computing-Anwendungen wie autonome Robotik, Smart-Home-Kameras oder mobile Bildanalyse. Die Inferenzgeschwindigkeit ist bemerkenswert: Auf modernen CPUs verarbeitet das Modell Bilder in wenigen Sekunden, auf GPUs nahezu in Echtzeit.

Moondream 2 ist als Open-Source-Projekt auf Hugging Face verfügbar und über Ollama einfach lokal installierbar. Die Apache-2.0-Lizenz ermöglicht kommerzielle Nutzung. Natürlich kann Moondream nicht mit deutlich größeren Vision-Language-Modellen wie LLaVA-34B oder GPT-4V konkurrieren, aber für seine Größenklasse bietet es ein außergewöhnliches Preis-Leistungs-Verhältnis in Bezug auf Rechenleistung und Fähigkeiten.

Fähigkeiten-Matrix

Was kann Moondream 2 — und was nicht?

🇩🇪 Deutsch-Chat

2.0

🇬🇧 Englisch-Chat

3.0

🗣️ Multilingual

2.0

💻 Code-Generierung

0.5

🌍 Übersetzung

1.0

📋 Zusammenfassung

2.5

📄 RAG / Dokumente

1.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

3.5

🧮 Mathematik / Logik

1.0

✍️ Kreatives Schreiben

2.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1.86B	2 GB	2 GB	✓ Ja (langsam)	Q4_K_M	Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✗ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.5/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?