100% Lokal · DSGVO

Moondream 2

von vikhyatk · Lizenz: Apache 2.0 · Kommerziell nutzbar

Winziges Vision-Language-Modell für Bildbeschreibung auf Edge-Geräten

3.5 Gesamt
Verfügbare Größen: 1.86B

Was ist Moondream 2?

Moondream 2 ist ein bemerkenswertes kleines Vision-Language-Modell mit nur 1,86 Milliarden Parametern, das Bilderkennung und Sprachverständnis in einem kompakten Paket vereint. Das Modell kombiniert den SigLIP-Vision-Encoder mit dem Phi-1.5-Sprachmodell und kann damit Bilder analysieren, beschreiben und Fragen zu visuellen Inhalten beantworten. Trotz seiner geringen Größe zeigt Moondream 2 beeindruckende Fähigkeiten bei der Bildbeschreibung, Objekterkennung und dem visuellen Reasoning.

Das Modell wurde speziell für ressourcenbeschränkte Umgebungen entwickelt und läuft problemlos auf Geräten mit niedrigen Ressourcen — von Laptops ohne GPU bis hin zu Einplatinenrechnern. Mit einem Speicherbedarf von nur 2 bis 4 GB RAM eignet sich Moondream ideal für Edge-Computing-Anwendungen wie autonome Robotik, Smart-Home-Kameras oder mobile Bildanalyse. Die Inferenzgeschwindigkeit ist bemerkenswert: Auf modernen CPUs verarbeitet das Modell Bilder in wenigen Sekunden, auf GPUs nahezu in Echtzeit.

Moondream 2 ist als Open-Source-Projekt auf Hugging Face verfügbar und über Ollama einfach lokal installierbar. Die Apache-2.0-Lizenz ermöglicht kommerzielle Nutzung. Natürlich kann Moondream nicht mit deutlich größeren Vision-Language-Modellen wie LLaVA-34B oder GPT-4V konkurrieren, aber für seine Größenklasse bietet es ein außergewöhnliches Preis-Leistungs-Verhältnis in Bezug auf Rechenleistung und Fähigkeiten.

Fähigkeiten-Matrix

Was kann Moondream 2 — und was nicht?

🇩🇪 Deutsch-Chat
2.0
🇬🇧 Englisch-Chat
3.0
🗣️ Multilingual
2.0
💻 Code-Generierung
0.5
🌍 Übersetzung
1.0
📋 Zusammenfassung
2.5
📄 RAG / Dokumente
1.5
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
3.5
🧮 Mathematik / Logik
1.0
✍️ Kreatives Schreiben
2.0

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
1.86B 2 GB 2 GB ✓ Ja (langsam) Q4_K_M Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.5/5
Inference-Speed ★★★★★ 5.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?