SeamlessM4T V2
von Meta AI · Lizenz: CC-BY-NC 4.0 · Eingeschränkte Lizenz
Multimodaler Übersetzer für Sprache und Text in 100 Sprachen
Was ist SeamlessM4T V2?
SeamlessM4T V2 ist Metas multimodales Übersetzungsmodell, das als einziges Open-Source-System alle vier Übersetzungsmodalitäten in einem einzigen Modell vereint: Sprache-zu-Sprache, Sprache-zu-Text, Text-zu-Sprache und Text-zu-Text. Mit Unterstützung für bis zu 100 Sprachen bei Text und 76 Sprachen bei Sprachein- und -ausgabe stellt SeamlessM4T V2 einen Meilenstein in der multimodalen Übersetzung dar. Das Modell basiert auf der UnitY2-Architektur, die gegenüber dem Vorgänger V1 sowohl die Übersetzungsqualität als auch die Inferenzgeschwindigkeit bei Sprachgenerierungsaufgaben deutlich verbessert.
Auf dem FLEURS-Benchmark erzielt SeamlessM4T eine Verbesserung von 20 Prozent BLEU gegenüber dem vorherigen Stand der Technik bei direkter Sprache-zu-Text-Übersetzung. Besonders bemerkenswert ist, dass das Modell kaskadenfreie Übersetzung bietet — es muss nicht erst transkribieren, dann übersetzen und dann synthesieren, sondern kann direkt von einer Sprache in eine andere übersetzen. Die Large-Variante benötigt eine GPU mit etwa 8 GB VRAM für Echtzeit-Inferenz.
SeamlessM4T V2 baut im Textbereich auf NLLB-200 auf und erweitert dessen Fähigkeiten um die Sprachmodalität. Die CC-BY-NC-4.0-Lizenz erlaubt nicht-kommerzielle Nutzung. Für Entwickler bietet Meta ein umfassendes GitHub-Repository mit Installationsanleitungen und Beispielcode für alle Übersetzungsrichtungen.
Fähigkeiten-Matrix
Was kann SeamlessM4T V2 — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 2.3B (large) | 8 GB | 8 GB | ✓ Ja (langsam) | fp16 | RTX 3060 8GB |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?