KI

Zwei Punkte hinter Opus 4.6, fünfmal billiger: Gemini 3.5 Flash dreht die Rechnung

Susan Hill

Google brachte Gemini 3.5 Flash am Montag zu 1,50 Dollar pro Million Eingabetoken und 9 Dollar pro Million Ausgabetoken auf den Markt. Das neue Modell hält über 280 Ausgabetoken pro Sekunde, behält dasselbe Kontextfenster von einer Million Token wie sein Vorgänger und landet im Artificial Analysis Intelligence Index bei 55 Punkten, neun Punkte über Gemini 3 Flash. Am Dienstagmorgen hatte ein r/Anthropic-Thread bereits die Tabelle neben Claude Opus 4.6 gestellt und die Frage formuliert, um die der Markt seit sechs Monaten kreist: Ab welchem Punkt sind zwei Benchmark-Punkte den fünffachen Preis nicht mehr wert?

Der Intelligence Index fasst eine Reihe öffentlicher Evaluierungen aus Reasoning, Wissen, Coding, Mathematik und agentischer Aufgabenerfüllung zu einer einzigen Punktzahl von 1 bis 100 zusammen. Claude Opus 4.6 im adaptiven Reasoning-Modus liegt bei 57. Gemini 3.5 Flash, am 19. Mai veröffentlicht, liegt bei 55. Der Versionssprung von neun Punkten ist der steilste Einzelschritt, den Flash je verzeichnet hat — groß genug, dass das neue Modell jetzt Anthropics letztes Sonnet auf der reinen Intelligenz erreicht, zu einem Bruchteil der Sonnet-Kosten.

Die „intelligenter“-Lesart aus dem Reddit-Thread überzeichnet den Abstand zugunsten von Flash. Auf dem reinen Intelligence Index liegt Opus 4.6 weiter um zwei Punkte vorn. Die Grafik, die den Thread sprengte, ist nicht der isolierte Intelligence Index. Es ist die Intelligenz-Effizienz-gegen-Kosten-Ansicht, in der die Achse anderes leistet, und in der Flash 3.5 Opus 4.6 nicht einfach schlägt — es steht in einer Klasse, in der niemand anderes in der Nähe ist.

Opus 4.6 verlangt rund 6,25 Dollar pro Million Eingabetoken und 25 Dollar pro Million Ausgabetoken. Flash verlangt 1,50 und 9. Bei einer Chat-Last mit Verhältnis zwei zu eins zugunsten der Ausgabe liegt das effektive Preisverhältnis näher bei 4,5-fach als bei dem runden „fünf-mal“ des Thread-Titels. Die Rundung ist fair. Beim Tempo wird das Bild für das Flaggschiff hässlich: Flash 3.5 hält über 280 Ausgabetoken pro Sekunde, Opus 4.6 im Maximum-Effort-Reasoning kommt auf der gleichen Benchmark-Suite auf etwa ein Zehntel davon. Für Produkte, in denen ein Nutzer auf einen Cursor starrt — Coding-Assistenten, Support-Agenten, jeder interaktive Fluss —, ist Latenz ein Feature, das der Preis nicht zurückkauft.

Vor einem Jahr war das Argument für den teuersten Modell-Kauf ein Einzeiler. Der Qualitätssprung in die nächste Stufe war groß genug, dass die Preisdifferenz gegen den gelieferten Wert ein Rundungsfehler war. Die Grafik, die der Thread postete, ist eine andere Grafik. Die Grenzkosten der letzten zwei Intelligenzpunkte sind zur kompletten Preisentscheidung für Produktionslasten geworden, und der Rundungsfehler liegt jetzt näher bei 4,75 Dollar pro sechs ausgegebenen Dollar.

Es gibt ein sauberes Argument, Opus 4.6 weiter im Stack zu halten. Long-Context-Reasoning über Hunderte Seiten, Agentenschleifen, in denen sich Fehler über Schritte aufsummieren, Dokumentenanalyse, in der zwei Punkte auf einer aggregierten Note deutlich größere aufgabenspezifische Vorsprünge verdecken. Opus ist weiter das Modell, zu dem Ingenieure greifen, wenn die Fehlfunktion lautet „die Antwort war falsch“ und nicht „die Antwort kam zu spät“. Der Anteil der Produktionslasten, der so aussieht, schrumpft. Er ist nicht null, und er ist genau der Streifen, in dem die 25 Dollar pro Million ihr Geld verdienen.

Die Chat-Turns, die den Großteil abrechenbarer Token bewegen — Entwurf, Zusammenfassung, Klassifikation, Übersetzung, Code-Vervollständigung, kundenseitiges Reasoning —, liegen alle in Flashs Reichweite. Die Frage, die Engineering-Teams jedes Quartal stellen, lautet nicht mehr „welches Modell ist das beste“. Sie lautet „welches Modell liefert das meiste pro Dollar bei akzeptabler Latenz“. Diese zweite Frage gewinnt Flash jetzt mit einem Vorsprung, der keine Feinheiten zur Interpretation verlangt.

Das zweite Framing des Threads, dass überall Konsens herrsche, Opus 4.6 sei besser als 4.7, verdient eine sanftere Behandlung. Es ist anekdotisch. Anthropics zwei letzte Opus-Versionen haben in Coding-Evaluierungen und beim Tool-Use-Verhalten gespaltene Bewertungen bekommen, mit Teams, die Regressionen in langen Agentenschleifen unter 4.7 melden, und anderen, die saubere Erfolge auf identischen Lasten melden. Beides kann gleichzeitig stimmen, wenn das Verhalten zwischen Minor-Versionen über viele Achsen nachjustiert wird. Die beiden Modelle liegen auf dem öffentlichen Index zudem weniger als einen Punkt auseinander, so dass die Spaltung der Community näher am Geschmack liegt als an der Fähigkeit. Was nicht zur Debatte steht: Der Preis keines der beiden Opus rührt sich.

Das tiefere Signal in der Reddit-Konversation ist, worüber die Nutzer nicht stritten. Niemand verteidigte im Thread den Opus-Preis grundsätzlich. Die Verteidigungen, die kamen, waren auslastungsspezifisch. „Opus gewinnt hier in dieser Agentenschleife.“ „Opus bleibt in unserer Dokumentenprüfung.“ Das ist real, aber es sind Lasten-Verteidigungen, keine Flaggschiff-Verteidigungen. Ein Flaggschiff soll auf der Breite gewinnen, nicht auf einer einzelnen Spur.

Zwei Punkte Intelligenzabstand. Fünffacher Preis. Sechsfacher Geschwindigkeitsvorteil in die andere Richtung. Ein Kontextfenster von einer Million Token zu 1,50 Dollar pro Million Eingabe. Multimodale Eingabe, agentischer Task-Elo über 1650, neunzig Prozent Rabatt auf gecachte Eingabe. Anthropics Antwort im nächsten Quartal wird ihre eigene Geschichte erzählen. Schwieriger zu schreiben ist im Mai 2026 die, die ein Verkäufer in ein Kundenmeeting hineintragen muss.

Mehr davon

Diskussion

Es gibt 0 Kommentare.