Claude wird noch besser — und ehrlicher
29. Mai 2026 | Von: KI-Katalog Redaktion
Nur 41 Tage nach Opus 4.7 hat Anthropic mit Claude Opus 4.8 das nächste Update veröffentlicht. Die Headline-Zahl: 69,2 Prozent auf SWE-bench Pro — fast 5 Punkte besser als der Vorgänger. Aber das spannendste Feature ist ein anderes: Claude erkennt eigene Code-Fehler jetzt 4-mal häufiger als zuvor.
Die Benchmark-Zahlen
| Benchmark | Opus 4.7 | Opus 4.8 | Verbesserung |
|---|---|---|---|
| SWE-bench Pro | 64,3% | 69,2% | +4,9 Punkte |
| SWE-bench Verified | 83,1% | 88,6% | +5,5 Punkte |
| Terminal-Bench 2.1 | ~70% | 74,6% | +4,6 Punkte |
Das sind keine inkrementellen Verbesserungen — in 41 Tagen hat Anthropic Claude beim Coding signifikant nach vorne gebracht. Auf SWE-bench Verified, dem wichtigsten Coding-Benchmark, löst Claude Opus 4.8 fast 9 von 10 echten GitHub-Issues korrekt.
Das Killer-Feature: Parallele Sub-Agenten
Das aufregendste neue Feature ist Dynamic Workflows in Claude Code: Man kann Claude jetzt anweisen, eine große Aufgabe in Unteraufgaben zu zerlegen und diese parallel von bis zu 16 gleichzeitigen Sub-Agenten bearbeiten zu lassen. Maximal 1.000 Sub-Agenten pro Session.
Praktisches Beispiel: Man sagt Claude Code: "Refactore alle API-Endpoints in diesem Projekt auf das neue Authentifizierungsschema." Claude: 1. Analysiert das Projekt und identifiziert alle betroffenen Dateien 2. Plant die Migration für jede Datei 3. Spawnt 10 parallele Sub-Agenten, die gleichzeitig verschiedene Dateien bearbeiten 4. Verifiziert die Ergebnisse aller Sub-Agenten 5. Berichtet den Gesamtstatus
Was vorher 2 Stunden gedauert hat, ist in 15 Minuten erledigt.
Wir nutzen Claude Code selbst in unserem Unternehmen und haben die parallelen Sub-Agenten sofort getestet. Das Ergebnis: Beeindruckend bei großen Refactorings, aber bei kleinen Aufgaben ist der Overhead der Parallelisierung höher als der Gewinn.
Der ehrliche Fehler-Detektor
Anthropic nennt es bescheiden "a modest but tangible improvement", aber es ist konzeptionell wichtig: Claude Opus 4.8 flaggt eigene Code-Fehler 4x häufiger als sein Vorgänger. Statt fehlerhaften Code stillschweigend zu generieren, sagt das Modell jetzt aktiv: "Achtung, dieser Ansatz hat ein potenzielles Problem bei..."
Das adressiert direkt eines der größten Probleme bei KI-Coding: den Verifikationsaufwand. Wenn das Modell seine eigenen Schwächen erkennt, sinkt die Zeit die Entwickler mit Code-Review verbringen.
Pricing: Unverändert
| Plan | Preis |
|---|---|
| API Input | $5 / 1M Tokens |
| API Output | $25 / 1M Tokens |
| Claude Pro (Chat) | $20/Monat |
| Fast Mode | 2,5x günstiger |
Anthropic hält die Preise stabil — was angesichts der Leistungssteigerung effektiv eine Preissenkung pro Qualitätseinheit ist. Im Vergleich: GPT-5.5 kostet ähnlich, Mistral Medium 3.5 ist günstiger aber schwächer beim Coding.
Was kommt als nächstes: Mythos?
Die Frage, die alle beschäftigt: Ist Opus 4.8 die letzte Iteration vor Claude Mythos? Mit "near-Mythos level alignment" laut VentureBeat scheint Opus 4.8 eine Brücke zum Mythos-Release zu sein. Prediction Markets sehen eine 25-Prozent-Chance für einen Mythos-Release im Juni — aber Juli oder August erscheint realistischer.
Claude im KI-Katalog | Claude Code im Praxistest | Claude Mythos: Was wir wissen
---
Quellen: