100% Lokal · DSGVO

SeamlessM4T V2

von Meta AI · Lizenz: CC-BY-NC 4.0 · Eingeschränkte Lizenz

Multimodaler Übersetzer für Sprache und Text in 100 Sprachen

4.5 Gesamt

Verfügbare Größen: 2.3B

Website HuggingFace

Was ist SeamlessM4T V2?

SeamlessM4T V2 ist Metas multimodales Übersetzungsmodell, das als einziges Open-Source-System alle vier Übersetzungsmodalitäten in einem einzigen Modell vereint: Sprache-zu-Sprache, Sprache-zu-Text, Text-zu-Sprache und Text-zu-Text. Mit Unterstützung für bis zu 100 Sprachen bei Text und 76 Sprachen bei Sprachein- und -ausgabe stellt SeamlessM4T V2 einen Meilenstein in der multimodalen Übersetzung dar. Das Modell basiert auf der UnitY2-Architektur, die gegenüber dem Vorgänger V1 sowohl die Übersetzungsqualität als auch die Inferenzgeschwindigkeit bei Sprachgenerierungsaufgaben deutlich verbessert.

Auf dem FLEURS-Benchmark erzielt SeamlessM4T eine Verbesserung von 20 Prozent BLEU gegenüber dem vorherigen Stand der Technik bei direkter Sprache-zu-Text-Übersetzung. Besonders bemerkenswert ist, dass das Modell kaskadenfreie Übersetzung bietet — es muss nicht erst transkribieren, dann übersetzen und dann synthesieren, sondern kann direkt von einer Sprache in eine andere übersetzen. Die Large-Variante benötigt eine GPU mit etwa 8 GB VRAM für Echtzeit-Inferenz.

SeamlessM4T V2 baut im Textbereich auf NLLB-200 auf und erweitert dessen Fähigkeiten um die Sprachmodalität. Die CC-BY-NC-4.0-Lizenz erlaubt nicht-kommerzielle Nutzung. Für Entwickler bietet Meta ein umfassendes GitHub-Repository mit Installationsanleitungen und Beispielcode für alle Übersetzungsrichtungen.

Fähigkeiten-Matrix

Was kann SeamlessM4T V2 — und was nicht?

🇩🇪 Deutsch-Chat

—

🇬🇧 Englisch-Chat

—

🗣️ Multilingual

—

💻 Code-Generierung

—

🌍 Übersetzung

5.0

📋 Zusammenfassung

—

📄 RAG / Dokumente

—

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

—

✍️ Kreatives Schreiben

1.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
2.3B (large)	8 GB	8 GB	✓ Ja (langsam)	fp16	RTX 3060 8GB

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✗ vLLM

✗ Open WebUI

✗ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★☆ 4.5/5

Inference-Speed ★★★★☆ 4.0/5

RAM/VRAM-Effizienz ★★★☆☆ 3.5/5

War diese Übersicht hilfreich?