100% Lokal · DSGVO

GTE-Large

von Alibaba DAMO Academy · Lizenz: mit · Kommerziell nutzbar

Kompaktes Embedding-Modell mit herausragendem Preis-Leistungs-Verhältnis

4.0 Gesamt
Verfügbare Größen: 335M

Was ist GTE-Large?

GTE-Large (General Text Embeddings) ist ein leistungsstarkes Embedding-Modell von Alibabas DAMO Academy, das mit einer Multi-Stage-Contrastive-Learning-Methode trainiert wurde. Mit 335 Millionen Parametern und 1024-dimensionalen Ausgabevektoren bietet GTE-Large eine hervorragende Balance zwischen Qualität und Effizienz. Auf dem MTEB-Benchmark erreicht es Spitzenwerte und positioniert sich konsistent unter den besten Embedding-Modellen seiner Größenklasse.

Das Modell wurde auf einem breit gefächerten, multilingualen Datensatz trainiert und zeigt starke Leistungen bei englischen und auch bei deutschsprachigen Texten. GTE-Large eignet sich hervorragend für semantische Suche, Dokumenten-Retrieval, Textklassifikation und als Grundlage für RAG-Systeme. Die Kontextlänge von 512 Tokens ist für die meisten Embedding-Anwendungen ideal, und neuere Varianten wie GTE-Qwen2 unterstützen sogar deutlich längere Kontexte.

Ein besonderer Vorteil von GTE-Large ist die Robustheit: Das Modell liefert auch bei kurzen Texten, Tippfehlern und informeller Sprache zuverlässige Embeddings. Die Hardware-Anforderungen sind minimal — etwa 1,5 GB VRAM genügen, und auf einer CPU ist das Modell ebenfalls effizient nutzbar. Über die Sentence-Transformers-Bibliothek und Ollama lässt sich GTE-Large einfach in bestehende Pipelines integrieren.

Unter der MIT-Lizenz ist das Modell vollständig frei nutzbar, auch für kommerzielle Zwecke. Für Teams, die ein zuverlässiges, effizientes Embedding-Modell für ihre lokale Suchinfrastruktur benötigen, ist GTE-Large eine ausgezeichnete Wahl.

Fähigkeiten-Matrix

Was kann GTE-Large — und was nicht?

🇩🇪 Deutsch-Chat
🇬🇧 Englisch-Chat
🗣️ Multilingual
💻 Code-Generierung
🌍 Übersetzung
📋 Zusammenfassung
📄 RAG / Dokumente
4.5
🔧 Tool-Use / Function Calling
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
✍️ Kreatives Schreiben

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
335M 2 GB 1.5 GB ✓ Ja (langsam) FP16 Keine GPU nötig, läuft effizient auf CPU

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Text Gen WebUI
Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5
Inference-Speed ★★★★★ 5.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Gte-Modelle

GTE-Qwen2

Effizientes mehrsprachiges Embedding-Modell auf Qwen2-Basis

1.5B 7B
Details ansehen

War diese Übersicht hilfreich?