100% Lokal · DSGVO

MiniCPM-V 2.6

von OpenBMB / Tsinghua University · Lizenz: Apache 2.0 · Kommerziell nutzbar

Kompaktes 8B-Vision-Modell mit GPT-4V-naher Leistung auf dem Handy

4.5 Gesamt
Verfügbare Größen: 8B

Was ist MiniCPM-V 2.6?

MiniCPM-V 2.6 ist ein bemerkenswert kompaktes Vision-Language-Modell mit nur 8 Milliarden Parametern, das eine Leistung nahe an deutlich größeren Modellen wie GPT-4V erreicht. Das Modell basiert auf dem SigLIP-400M Vision-Encoder und dem Qwen2-7B Sprachmodell und belegt lediglich 5,5 GB Speicher. Trotz dieser Kompaktheit zeigt MiniCPM-V 2.6 beeindruckende Fähigkeiten bei OCR, Dokumentenverständnis, Diagramminterpretation und allgemeiner Bildanalyse.

Besonders hervorzuheben ist die Fähigkeit, auf Smartphones und Edge-Geräten zu laufen — ein Meilenstein für lokal ausführbare Vision-KI. Die neueste Version MiniCPM-o mit 9 Milliarden Parametern erweitert die Fähigkeiten sogar um Sprachverarbeitung und erreicht Leistungen vergleichbar mit Gemini 2.5 Flash. MiniCPM-V unterstützt mehrere Sprachen, darunter Deutsch, Englisch, Chinesisch und weitere, und kann sowohl einzelne Bilder als auch Videosequenzen analysieren.

Die Integration über Ollama macht die lokale Nutzung besonders einfach: ein einzelner Befehl genügt, um das Modell herunterzuladen und zu starten. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung. Für Entwickler, die ein leistungsstarkes Vision-Modell auf Consumer-Hardware benötigen, bietet MiniCPM-V 2.6 ein außergewöhnliches Verhältnis von Qualität zu Ressourcenverbrauch.

Fähigkeiten-Matrix

Was kann MiniCPM-V 2.6 — und was nicht?

🇩🇪 Deutsch-Chat
3.5
🇬🇧 Englisch-Chat
4.0
🗣️ Multilingual
3.5
💻 Code-Generierung
2.0
🌍 Übersetzung
2.5
📋 Zusammenfassung
3.5
📄 RAG / Dokumente
3.0
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
4.5
🧮 Mathematik / Logik
3.0
✍️ Kreatives Schreiben
2.5

Unterstützte Programmiersprachen: Python

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
8B 8 GB 6 GB ✓ Ja (langsam) Q4_K_M RTX 3060 6GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★★☆ 4.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?