Technologie

OpenAIs neues Sprachmodell denkt innerhalb der Audioschleife — und die Pause, die KI verriet, verschwindet

Die Pause ist der Verräter. Bisher arbeitete Sprach-KI so — sie transkribierte das Gesprochene, schickte den Text an ein Sprachmodell, holte die Antwort zurück und synthetisierte sie wieder zu Audio. Jeder Schritt kostet Zeit. Die Nutzerin hört Stille, weiß, dass am anderen Ende etwas verarbeitet wird, und spürt die Naht. OpenAIs neues GPT-Realtime-2 lässt diese Pipeline in ein einzelnes Modell zusammenfallen, in dem das Denken innerhalb der Audioschleife selbst stattfindet — und die Naht verschwindet.
Susan Hill

OpenAI hat in dieser Woche drei neue Audiomodelle in seinem Realtime API ausgerollt — GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Der Star ist das erste. Das Unternehmen beschreibt es als das erste Sprachmodell mit „GPT-5-class reasoning“ und hat es so gebaut, dass ein einziges Modell Audio rein und Audio raus übernimmt — mit dem Denken in das Gespräch hineingewoben, statt zwischen Transkription und Synthese eingeklemmt. Die belegenden Zahlen sind konkret. Der Big-Bench-Audio-Wert sprang gegenüber dem bisherigen Referenzmodell von 81,4 Prozent auf 96,6 Prozent. Audio MultiChallenge stieg von 34,7 Prozent auf 48,5 Prozent. Das Kontextfenster wuchs von 32.000 auf 128.000 Tokens — genug Platz, um den vollständigen Kundenverlauf während eines Anrufs zu halten.

Die strukturelle Verschiebung sieht man in Benchmarks schwerer. Drei Jahre lang musste jede und jeder, der einen Sprachagenten produktiv betreiben wollte, den Stack selbst zusammennähen — Whisper oder Deepgram für die Transkription, ein LLM fürs Denken, ElevenLabs oder Cartesia für die Stimme, und Prompt-Engineering, um die Latenz zu kaschieren. Jeder Übergang kostete Millisekunden und Klarheit. Die Nutzerin hörte ein per Skript eingespieltes „Moment, ich schaue nach“, dann Stille, während das Modell rechnete, und schließlich die Antwort. GPT-Realtime-2 liefert dieses Gerüst als natives Verhalten. Präambeln lassen den Agenten „Moment, ich schaue nach“ sagen, während er Werkzeuge aufruft, sodass die Nutzerin nicht in Stille sitzt. Parallele Tool-Aufrufe lassen das Modell mehrere Backend-Requests gleichzeitig abfeuern und narrativ begleiten, welcher gerade läuft. Das Recovery-Verhalten fängt Fehler ab und meldet sie, statt das Gespräch einfrieren zu lassen.

Die Steuerfläche, die sich für Entwicklerinnen öffnet, ist der spannendste Teil. Der „Reasoning Effort“ ist konfigurierbar — minimal, low, medium, high und xhigh — mit low als Voreinstellung, um die Latenz bei einfachen Anfragen niedrig zu halten. Ein Agent, der „Wann schließen Sie?“ beantwortet, braucht kein GPT-5-Class-Reasoning. Ein Agent, der eine Kundin durch eine Rückbuchungs-Streitigkeit führt, sehr wohl. Dasselbe Modell lässt sich pro Gesprächszug anweisen, wie scharf nachzudenken ist — eine echte Veränderung gegenüber dem Vorgängermodell, in dem die Tiefe des Reasoning fix war und Entwickelnde sich beim Deployment zwischen schnell und schlau entscheiden mussten.

Skepsis hat ihren Platz. „GPT-5-class reasoning“ ist eine Marketinglinie, kein verifizierbares Versprechen — ohne unabhängige Benchmarks auf realistischem Dialog bleibt der Vergleich hausintern. Sprachagenten haben einen separaten Fehlermodus, den Benchmarks schlecht einfangen — den Moment, in dem der Agent etwas Falsches mit ruhiger, natürlicher Stimme sagt. Besseres Denken hilft, beseitigt das Problem aber nicht. Der Preis zählt ebenfalls. GPT-Realtime-2 kostet 32 Dollar pro Million Audio-Input-Tokens und 64 pro Million Output-Tokens. GPT-Realtime-Translate liegt bei 0,034 Dollar pro Minute, GPT-Realtime-Whisper bei 0,017. Günstig genug für volumenstarken Kundenservice. Nicht günstig genug, um es in konversationellen Endkundenprodukten ohne nachgedachten Sitzungsumfang einzusetzen.

Der Einsatzkontext erzählt den Rest. Zillow hat noch am selben Tag die sprachbasierte Immobiliensuche live geschaltet. Die Deutsche Telekom rollte live übersetzte Sprachunterstützung in vierzehn europäischen Märkten aus. Beides ist exakt der Anwendungsfall, für den OpenAI bepreist — lange, transaktionale, kontextintensive Gespräche, in denen die Nutzerin davon profitiert, dass der Agent tatsächlich denkt, statt nur abzurufen. Priceline baut Systeme, mit denen Reisende Hotelreservierungen verwalten und Flugverspätungen vollständig per Stimme verfolgen können. Das Muster bei den zuerst genannten Kundinnen und Kunden ist klar — es sind jene, deren bisherige Sprachsysteme am schlechtesten funktionierten — Callcenter, Support-Hotlines, transaktionales Reisen. Genau die Orte, an denen Nutzerinnen heute „Vermittlung“ ins Telefon brüllen.

Die Modelle stehen ab sofort im Realtime API zur Verfügung. Die Sprach-Upgrades für ChatGPT stehen weiterhin aus — „Bleibt dran, wir kochen noch“, sagte OpenAI. Sam Altman rahmte den Launch um eine Verhaltensverschiebung — Nutzerinnen wenden sich der Sprache mit KI immer öfter zu, wenn sie viel Kontext „abladen“ wollen. Wenn dieses Muster trägt, beginnt sich die Lücke zwischen Sprach-KI und Text-KI zu schließen — und die Naht, die KI am Telefon verriet, wird schwerer zu hören.

Diskussion

Es gibt 0 Kommentare.