100% Lokal · DSGVO

GTE-Large

von Alibaba DAMO Academy · Lizenz: mit · Kommerziell nutzbar

Kompaktes Embedding-Modell mit herausragendem Preis-Leistungs-Verhältnis

4.0 Gesamt

Verfügbare Größen: 335M

ollama run gte-large Website HuggingFace

Was ist GTE-Large?

GTE-Large (General Text Embeddings) ist ein leistungsstarkes Embedding-Modell von Alibabas DAMO Academy, das mit einer Multi-Stage-Contrastive-Learning-Methode trainiert wurde. Mit 335 Millionen Parametern und 1024-dimensionalen Ausgabevektoren bietet GTE-Large eine hervorragende Balance zwischen Qualität und Effizienz. Auf dem MTEB-Benchmark erreicht es Spitzenwerte und positioniert sich konsistent unter den besten Embedding-Modellen seiner Größenklasse.

Das Modell wurde auf einem breit gefächerten, multilingualen Datensatz trainiert und zeigt starke Leistungen bei englischen und auch bei deutschsprachigen Texten. GTE-Large eignet sich hervorragend für semantische Suche, Dokumenten-Retrieval, Textklassifikation und als Grundlage für RAG-Systeme. Die Kontextlänge von 512 Tokens ist für die meisten Embedding-Anwendungen ideal, und neuere Varianten wie GTE-Qwen2 unterstützen sogar deutlich längere Kontexte.

Ein besonderer Vorteil von GTE-Large ist die Robustheit: Das Modell liefert auch bei kurzen Texten, Tippfehlern und informeller Sprache zuverlässige Embeddings. Die Hardware-Anforderungen sind minimal — etwa 1,5 GB VRAM genügen, und auf einer CPU ist das Modell ebenfalls effizient nutzbar. Über die Sentence-Transformers-Bibliothek und Ollama lässt sich GTE-Large einfach in bestehende Pipelines integrieren.

Unter der MIT-Lizenz ist das Modell vollständig frei nutzbar, auch für kommerzielle Zwecke. Für Teams, die ein zuverlässiges, effizientes Embedding-Modell für ihre lokale Suchinfrastruktur benötigen, ist GTE-Large eine ausgezeichnete Wahl.

Fähigkeiten-Matrix

Was kann GTE-Large — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

—

📋 Zusammenfassung

—

📄 RAG / Dokumente

4.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

—

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
335M	2 GB	1.5 GB	✓ Ja (langsam)	FP16	Keine GPU nötig, läuft effizient auf CPU

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✓ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Gte-Modelle

GTE-Qwen2

Effizientes mehrsprachiges Embedding-Modell auf Qwen2-Basis

1.5B 7B

Details ansehen

War diese Übersicht hilfreich?