100% Lokal · DSGVO

mxbai-embed-large

von Mixedbread AI · Lizenz: apache-2.0 · Kommerziell nutzbar

Deutsches Embedding-Modell mit Spitzenleistung bei semantischer Suche

4.5 Gesamt

Verfügbare Größen: 335M

ollama run mxbai-embed-large Website HuggingFace

Was ist mxbai-embed-large?

mxbai-embed-large ist ein hochleistungsfähiges Embedding-Modell von Mixedbread AI, einem deutschen KI-Startup aus Berlin. Mit 335 Millionen Parametern erzeugt es 1024-dimensionale Vektoren, die für semantische Suche, Retrieval-Augmented Generation (RAG), Clustering und Ähnlichkeitsvergleiche optimiert sind. Auf dem MTEB-Benchmark (Massive Text Embedding Benchmark) erreicht mxbai-embed-large Spitzenwerte und übertrifft dabei viele kommerzielle Embedding-Dienste wie die von OpenAI oder Cohere.

Besonders bemerkenswert ist die starke Leistung bei deutschen Texten — als eines der wenigen Top-Embedding-Modelle wurde es von einem deutschen Team entwickelt und zeigt entsprechend gute Ergebnisse bei deutschsprachigen Dokumenten und Abfragen. Das Modell unterstützt Texte bis zu 512 Tokens und eignet sich damit für die Verarbeitung von Absätzen, Dokumentenabschnitten und typischen RAG-Chunks. Die Inferenz ist extrem schnell: Auf einer modernen GPU werden tausende Texte pro Sekunde eingebettet, und selbst auf der CPU ist die Geschwindigkeit für die meisten Anwendungsfälle ausreichend.

Die Hardware-Anforderungen sind minimal — etwa 1,5 GB VRAM reichen aus, und über Ollama ist das Modell mit einem einzigen Befehl installiert. mxbai-embed-large lässt sich nahtlos in RAG-Pipelines mit LangChain, LlamaIndex oder eigenen Implementierungen integrieren. Unter der Apache-2.0-Lizenz ist es vollständig kommerziell nutzbar.

Für alle, die lokale semantische Suche oder RAG-Systeme aufbauen möchten, ist mxbai-embed-large eine der besten verfügbaren Optionen — insbesondere für deutschsprachige Anwendungen.

Fähigkeiten-Matrix

Was kann mxbai-embed-large — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
335M	2 GB	1.5 GB	✓ Ja (langsam)	FP16	Keine GPU nötig, läuft effizient auf CPU

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?