100% Lokal · DSGVO

GTE-Qwen2

von Alibaba DAMO Academy · Lizenz: Apache 2.0 · Kommerziell nutzbar

Effizientes mehrsprachiges Embedding-Modell auf Qwen2-Basis

4.5 Gesamt

Verfügbare Größen: 1.5B 7B

Website HuggingFace

Was ist GTE-Qwen2?

GTE-Qwen2 (General Text Embeddings mit Qwen2-Backbone) ist Alibabas leistungsstarkes Embedding-Modell, das in mehreren Größen von 1,5B bis 7B Parametern verfügbar ist. Das Modell basiert auf der Qwen2-Architektur und wurde speziell für die Erzeugung hochwertiger Text-Embeddings optimiert. GTE-Qwen2 erzielt Spitzenwerte im MTEB-Benchmark und glaenzt besonders bei mehrsprachigen Aufgaben dank des umfangreichen multilingualen Trainings der Qwen2-Basis.

Die 1,5B-Variante bietet ein hervorragendes Verhältnis von Qualität zu Ressourcenverbrauch und laeuft bereits mit 4 GB VRAM effizient. Die 8192-Token-Kontextlänge ist deutlich länger als bei den meisten Embedding-Modellen und ermöglicht die Verarbeitung ganzer Dokumentseiten in einem Durchgang. GTE-Qwen2 unterstützt Deutsch auf hohem Niveau und ist damit ideal für deutschsprachige RAG-Systeme und semantische Suche.

Die Apache-2.0-Lizenz erlaubt den uneingeschraenkten kommerziellen Einsatz. Das Modell lässt sich einfach über die Sentence-Transformers-Bibliothek oder direkt über die Transformers-API integrieren. Für Anwender, die ein kompaktes aber leistungsstarkes Embedding-Modell mit exzellenter Mehrsprachigkeit suchen, ist GTE-Qwen2 eine hervorragende Wahl.

Die Matryoshka-Repräsentation ermöglicht flexible Embedding-Dimensionen für optimale Balance zwischen Qualität und Speicherverbrauch. GTE-Qwen2 wird von Alibabas DAMO Academy aktiv weiterentwickelt und profitiert von der starken Qwen-Modellreihe. Für den europäischen Markt bietet die lokale Ausführung volle DSGVO-Konformität.

Fähigkeiten-Matrix

Was kann GTE-Qwen2 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

5.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1.5B	4 GB	4 GB	✓ Ja (langsam)	Q4_K_M	Jede GPU mit 4GB VRAM, CPU möglich
7B	8 GB	8 GB	✗ Nein	Q4_K_M	RTX 3060 12GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★★☆ 4.0/5

Weitere Gte-Modelle

GTE-Large

Kompaktes Embedding-Modell mit herausragendem Preis-Leistungs-Verhältnis

335M

Details ansehen

War diese Übersicht hilfreich?