100% Lokal · DSGVO

BGE-M3

von BAAI (Beijing Academy of AI) · Lizenz: MIT · Kommerziell nutzbar

Mehrsprachiges Multi-Retrieval-Embedding mit 100+ Sprachen und 8K Kontext

4.5 Gesamt

Verfügbare Größen: 568M

ollama run bge-m3 Website HuggingFace

Was ist BGE-M3?

BGE-M3 ist ein vielseitiges Embedding-Modell der Beijing Academy of Artificial Intelligence (BAAI), das drei Retrieval-Methoden in einem einzigen Modell vereint: Dense Retrieval, Multi-Vector-Retrieval und Sparse Retrieval. Mit 568 Millionen Parametern und Unterstützung für über 100 Sprachen ist BGE-M3 eines der leistungsstärksten mehrsprachigen Embedding-Modelle für lokale Nutzung. Die Kontextlänge von 8.192 Token ermöglicht die Verarbeitung längerer Dokumente ohne Aufteilung, was die Qualität bei RAG-Anwendungen deutlich verbessert.

Besonders innovativ ist die Fähigkeit, alle drei Retrieval-Methoden gleichzeitig auszuführen und die Ergebnisse zu kombinieren, was zu höherer Suchgenauigkeit führt als jede einzelne Methode allein. BGE-M3 eignet sich hervorragend für Wissensdatenbanken, semantische Suche in mehrsprachigen Dokumentensammlungen und als Backbone für RAG-Pipelines mit LLMs. Die Hardware-Anforderungen sind moderat: Das Modell läuft auf CPUs und benötigt etwa 2 GB RAM, profitiert aber von GPU-Beschleunigung für Batch-Verarbeitung.

Die Integration erfolgt über die Sentence-Transformers-Bibliothek, die FlagEmbedding-API oder Ollama. BGE-M3 ist unter der MIT-Lizenz veröffentlicht und damit uneingeschränkt kommerziell nutzbar — eine starke Wahl für Unternehmen, die eine datenschutzkonforme, mehrsprachige Suchinfrastruktur aufbauen möchten.

Fähigkeiten-Matrix

Was kann BGE-M3 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
568M	2 GB	2 GB	✓ Ja (langsam)	fp16	Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

War diese Übersicht hilfreich?