MiniCPM-V 2.6
von OpenBMB / Tsinghua University · Lizenz: Apache 2.0 · Kommerziell nutzbar
Kompaktes 8B-Vision-Modell mit GPT-4V-naher Leistung auf dem Handy
Was ist MiniCPM-V 2.6?
MiniCPM-V 2.6 ist ein bemerkenswert kompaktes Vision-Language-Modell mit nur 8 Milliarden Parametern, das eine Leistung nahe an deutlich größeren Modellen wie GPT-4V erreicht. Das Modell basiert auf dem SigLIP-400M Vision-Encoder und dem Qwen2-7B Sprachmodell und belegt lediglich 5,5 GB Speicher. Trotz dieser Kompaktheit zeigt MiniCPM-V 2.6 beeindruckende Fähigkeiten bei OCR, Dokumentenverständnis, Diagramminterpretation und allgemeiner Bildanalyse.
Besonders hervorzuheben ist die Fähigkeit, auf Smartphones und Edge-Geräten zu laufen — ein Meilenstein für lokal ausführbare Vision-KI. Die neueste Version MiniCPM-o mit 9 Milliarden Parametern erweitert die Fähigkeiten sogar um Sprachverarbeitung und erreicht Leistungen vergleichbar mit Gemini 2.5 Flash. MiniCPM-V unterstützt mehrere Sprachen, darunter Deutsch, Englisch, Chinesisch und weitere, und kann sowohl einzelne Bilder als auch Videosequenzen analysieren.
Die Integration über Ollama macht die lokale Nutzung besonders einfach: ein einzelner Befehl genügt, um das Modell herunterzuladen und zu starten. Die Apache-2.0-Lizenz ermöglicht uneingeschränkte kommerzielle Nutzung. Für Entwickler, die ein leistungsstarkes Vision-Modell auf Consumer-Hardware benötigen, bietet MiniCPM-V 2.6 ein außergewöhnliches Verhältnis von Qualität zu Ressourcenverbrauch.
Fähigkeiten-Matrix
Was kann MiniCPM-V 2.6 — und was nicht?
Unterstützte Programmiersprachen: Python
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 8B | 8 GB | 6 GB | ✓ Ja (langsam) | Q4_K_M | RTX 3060 6GB |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?