100% Lokal · DSGVO

GTE-Qwen2

von Alibaba DAMO Academy · Lizenz: Apache 2.0 · Kommerziell nutzbar

Effizientes mehrsprachiges Embedding-Modell auf Qwen2-Basis

4.5 Gesamt
Verfügbare Größen: 1.5B 7B

Was ist GTE-Qwen2?

GTE-Qwen2 (General Text Embeddings mit Qwen2-Backbone) ist Alibabas leistungsstarkes Embedding-Modell, das in mehreren Größen von 1,5B bis 7B Parametern verfügbar ist. Das Modell basiert auf der Qwen2-Architektur und wurde speziell für die Erzeugung hochwertiger Text-Embeddings optimiert. GTE-Qwen2 erzielt Spitzenwerte im MTEB-Benchmark und glaenzt besonders bei mehrsprachigen Aufgaben dank des umfangreichen multilingualen Trainings der Qwen2-Basis.

Die 1,5B-Variante bietet ein hervorragendes Verhältnis von Qualität zu Ressourcenverbrauch und laeuft bereits mit 4 GB VRAM effizient. Die 8192-Token-Kontextlänge ist deutlich länger als bei den meisten Embedding-Modellen und ermöglicht die Verarbeitung ganzer Dokumentseiten in einem Durchgang. GTE-Qwen2 unterstützt Deutsch auf hohem Niveau und ist damit ideal für deutschsprachige RAG-Systeme und semantische Suche.

Die Apache-2.0-Lizenz erlaubt den uneingeschraenkten kommerziellen Einsatz. Das Modell lässt sich einfach über die Sentence-Transformers-Bibliothek oder direkt über die Transformers-API integrieren. Für Anwender, die ein kompaktes aber leistungsstarkes Embedding-Modell mit exzellenter Mehrsprachigkeit suchen, ist GTE-Qwen2 eine hervorragende Wahl.

Die Matryoshka-Repräsentation ermöglicht flexible Embedding-Dimensionen für optimale Balance zwischen Qualität und Speicherverbrauch. GTE-Qwen2 wird von Alibabas DAMO Academy aktiv weiterentwickelt und profitiert von der starken Qwen-Modellreihe. Für den europäischen Markt bietet die lokale Ausführung volle DSGVO-Konformität.

Fähigkeiten-Matrix

Was kann GTE-Qwen2 — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
5.0
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
✍️ Kreatives Schreiben

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
1.5B 4 GB 4 GB ✓ Ja (langsam) Q4_K_M Jede GPU mit 4GB VRAM, CPU möglich
7B 8 GB 8 GB ✗ Nein Q4_K_M RTX 3060 12GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★★☆ 4.0/5
RAM/VRAM-Effizienz ★★★★☆ 4.0/5

Weitere Gte-Modelle

GTE-Large

Kompaktes Embedding-Modell mit herausragendem Preis-Leistungs-Verhältnis

335M
Details ansehen

War diese Übersicht hilfreich?