100% Lokal · DSGVO

mxbai-embed-large

von Mixedbread AI · Lizenz: apache-2.0 · Kommerziell nutzbar

Deutsches Embedding-Modell mit Spitzenleistung bei semantischer Suche

4.5 Gesamt
Verfügbare Größen: 335M

Was ist mxbai-embed-large?

mxbai-embed-large ist ein hochleistungsfähiges Embedding-Modell von Mixedbread AI, einem deutschen KI-Startup aus Berlin. Mit 335 Millionen Parametern erzeugt es 1024-dimensionale Vektoren, die für semantische Suche, Retrieval-Augmented Generation (RAG), Clustering und Ähnlichkeitsvergleiche optimiert sind. Auf dem MTEB-Benchmark (Massive Text Embedding Benchmark) erreicht mxbai-embed-large Spitzenwerte und übertrifft dabei viele kommerzielle Embedding-Dienste wie die von OpenAI oder Cohere.

Besonders bemerkenswert ist die starke Leistung bei deutschen Texten — als eines der wenigen Top-Embedding-Modelle wurde es von einem deutschen Team entwickelt und zeigt entsprechend gute Ergebnisse bei deutschsprachigen Dokumenten und Abfragen. Das Modell unterstützt Texte bis zu 512 Tokens und eignet sich damit für die Verarbeitung von Absätzen, Dokumentenabschnitten und typischen RAG-Chunks. Die Inferenz ist extrem schnell: Auf einer modernen GPU werden tausende Texte pro Sekunde eingebettet, und selbst auf der CPU ist die Geschwindigkeit für die meisten Anwendungsfälle ausreichend.

Die Hardware-Anforderungen sind minimal — etwa 1,5 GB VRAM reichen aus, und über Ollama ist das Modell mit einem einzigen Befehl installiert. mxbai-embed-large lässt sich nahtlos in RAG-Pipelines mit LangChain, LlamaIndex oder eigenen Implementierungen integrieren. Unter der Apache-2.0-Lizenz ist es vollständig kommerziell nutzbar.

Für alle, die lokale semantische Suche oder RAG-Systeme aufbauen möchten, ist mxbai-embed-large eine der besten verfügbaren Optionen — insbesondere für deutschsprachige Anwendungen.

Fähigkeiten-Matrix

Was kann mxbai-embed-large — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
5.0
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
✍️ Kreatives Schreiben

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
335M 2 GB 1.5 GB ✓ Ja (langsam) FP16 Keine GPU nötig, läuft effizient auf CPU

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5
Inference-Speed ★★★★★ 5.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?