100% Lokal · DSGVO

Nomic Embed Text V2

von Nomic AI · Lizenz: Apache 2.0 · Kommerziell nutzbar

Erstes MoE-Embedding-Modell für mehrsprachige semantische Suche

4.0 Gesamt

Verfügbare Größen: 475M

ollama run nomic-embed-text Website HuggingFace

Was ist Nomic Embed Text V2?

Nomic Embed Text V2 ist ein bahnbrechendes Embedding-Modell, das als erstes eine Mixture-of-Experts-Architektur (MoE) für Texteinbettungen nutzt. Mit insgesamt 475 Millionen Parametern, von denen bei jeder Anfrage nur 305 Millionen aktiviert werden, bietet das Modell eine optimale Balance zwischen Leistung und Effizienz. Die MoE-Schichten bestehen aus 8 Experten mit Top-2-Routing, wodurch das Modell je nach Eingabesprache und -thema automatisch die relevantesten Spezialisten aktiviert.

Nomic Embed V2 wurde auf 1,6 Milliarden kontrastiven Paaren in über 100 Sprachen trainiert und unterstützt Kontextlängen bis zu 8.192 Token dank Rotary Positional Embeddings. Die erzeugten Embeddings können von 768 auf 256 Dimensionen gekürzt werden (Matryoshka-Darstellung), ohne signifikanten Qualitätsverlust — ideal für Anwendungen mit begrenztem Speicher. Das Modell eignet sich hervorragend für RAG-Systeme (Retrieval-Augmented Generation), semantische Suche, Dokumentenklassifikation und Clustering.

In Benchmarks übertrifft Nomic Embed V2 viele größere Modelle und bietet dabei deutlich schnellere Inferenz. Die lokale Nutzung erfolgt über Ollama, die Transformers-Bibliothek oder direkt als ONNX-Modell. Mit der Apache-2.0-Lizenz ist das Modell vollständig kommerziell einsetzbar und bietet eine datenschutzfreundliche Alternative zu Cloud-Embedding-Services wie OpenAI Ada.

Fähigkeiten-Matrix

Was kann Nomic Embed Text V2 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
475M	2 GB	2 GB	✓ Ja (langsam)	fp16	Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.5/5

RAM/VRAM-Effizienz ★★★★☆ 4.5/5

War diese Übersicht hilfreich?