Claude Opus 4.8 erkennt viermal mehr eigene Programmierfehler

Anthropic hat sein leistungsfähigstes Modell auf Claude Opus 4.8 aktualisiert, und die wichtigste Änderung ist kein größeres Gehirn, sondern ein vorsichtigeres. Das Unternehmen sagt, das Modell lasse Fehler im selbst geschriebenen Code rund viermal seltener als der Vorgänger unkommentiert durchgehen und benenne eher die Teile einer Aufgabe, bei denen es sich nicht sicher ist. Für alle, die echte Arbeit an eine KI übergeben, ob beim Programmieren, bei einer Analyse oder beim Bedienen eines Computers, ist diese Verlässlichkeit die eigentlich entscheidende Eigenschaft.

Die Schwachstelle heutiger KI-Agenten ist nicht Dummheit, sondern Selbstsicherheit. Sie liefern Ergebnisse, die fertig aussehen und sich flüssig lesen, während sie still Fehler mit sich tragen, und ein System, das allein läuft, baut den nächsten Schritt gern auf dem letzten Fehler auf. Bekommt ein Agent eine mehrstufige Aufgabe, kann sich eine einzige falsche Annahme am Anfang durch alles Folgende ziehen, sodass die Arbeit vollständig wirkt und sich als unbemerkt kaputt erweist. Ein Modell, das eigene Zweifel zeigt, statt sie zu übertünchen, lässt sich leichter beaufsichtigen, weil ein Mensch weiß, wo er hinschauen muss.

Am deutlichsten zeigt sich das beim Programmieren. Anthropic berichtet, Opus 4.8 lasse weit weniger Fehler im erzeugten Code unmarkiert durch, jenen stillen Bug, der erst im Produktivbetrieb auftaucht und nicht im Review. Die Investmentfirma Bridgewater Associates, eine der ersten Testerinnen, sagte, das Modell habe von sich aus auf Probleme sowohl bei den Eingaben als auch bei den Ergebnissen einer Analyse hingewiesen, etwas, das andere Systeme regelmäßig übersehen hätten. In der Wissensarbeit und in der Finanzwelt ist der gefährliche Fehler genau der, den niemand rechtzeitig bemerkt.

Die Benchmark-Zahlen stützen die Einordnung, ohne der Kern zu sein. Opus 4.8 erreichte Berichten zufolge 69,2 Prozent bei SWE-Bench Pro, einem Test aus echten Software-Engineering-Aufgaben, und liegt damit vor OpenAIs GPT-5.5 und Googles Gemini 3.1 Pro. In Anthropics eigenen Messungen schlägt es jedes frühere Opus-Modell in einem Programmiertest auf jeder Aufwandsstufe und erzielte das höchste je vom Unternehmen verzeichnete Ergebnis in einem Test zum juristischen Denken. Die Vorsprünge sind real, aber knapp, und Benchmark-Siege sagen schlecht voraus, wie sich ein Modell verhält, wenn es den ganzen Tag unscheinbare Arbeit erledigt.

Zum Modell kommen neue Werkzeuge. Eine Funktion in der Forschungsvorschau von Claude Code, dynamic workflows genannt, lässt Opus einen großen Auftrag planen und dann Hunderte paralleler Subagenten in einer einzigen Sitzung laufen, gedacht für Migrationen über Hunderttausende Codezeilen und mit der bestehenden Testsuite des Projekts als Maßstab. Zusätzlich erlaubt eine neue Einstellung in Claude.ai und in der unternehmenseigenen Umgebung Cowork, festzulegen, wie viel Aufwand und wie viele Tokens das Modell für eine Antwort einsetzt.

Die Einschränkungen liegen dicht an den Versprechen. Die Zuwächse bei der Verlässlichkeit beruhen größtenteils auf Anthropics eigenen Tests, und eine Angabe wie viermal seltener ist eine eigene Messung und keine unabhängig geprüfte. Auch Ehrlichkeit lässt sich von außen schwer überprüfen, denn ein Modell kann seine Unsicherheit ankündigen und trotzdem falschliegen oder beim Falschen Alarm schlagen. Dynamic workflows kommt nur als Vorschau und nicht als fertige Funktion, und die Geschwindigkeitsgeschichte ist weniger großzügig, als sie klingt, weil der schnelle Modus das Doppelte des Standardtarifs kostet und nur gegenüber früheren Premiumpreisen billiger heißt.

Wer auf die Kosten schaut: Der Standardzugang bleibt bei fünf Dollar pro Million Eingabe-Tokens und fünfundzwanzig pro Million Ausgabe-Tokens, genauso wie beim vorherigen Opus. Der schnelle Modus läuft mit etwa zweieinhalbfacher Geschwindigkeit für zehn und fünfzig Dollar pro Million, was die neue Aufwandssteuerung ebenso zu einem Budget- wie zu einem Qualitätsregler macht. Claude Opus 4.8 ist ab sofort über Anthropics Entwickler-API unter dem Namen claude-opus-4-8 verfügbar, und das Unternehmen sagt, es werde am selben Tag überall ausgerollt. Es erschien am Donnerstag, rund sechs Wochen nach Opus 4.7, ein ungewöhnlich kurzer Abstand, der auf eine verhaltene Aufnahme jener Version und eine Reihe konkurrierender Starts von OpenAI und Google folgte. Die eigentliche Probe ist, ob ein Modell, das an sich selbst zweifelt, im Alltag nützlicher ist als eines, das in einer Rangliste glänzt, und dieses Urteil werden die Agenten fällen, die Menschen tatsächlich laufen lassen.

Schlagwörter: Anthropic, Claude Code, Generative AI, AI reasoning, Claude Opus 4.8, LLM