OpenAI startet neue Realtime-Voice-Modelle
Stand: 8. Mai 2026, 08:00 Uhr CEST. OpenAI hat am Donnerstag, 7. Mai 2026, drei neue Sprachmodelle fuer die Realtime API vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Der eigentliche Nachrichtenwert liegt nicht nur in den neuen Namen. Laut OpenAI sind alle drei Modelle ab sofort in der Realtime API verfuegbar und zielen klar auf produktive Sprachanwendungen statt auf reine Demo-Features.

Was OpenAI am 7. Mai 2026 konkret angekuendigt hat
OpenAI positioniert den Launch als neues Paket fuer drei unterschiedliche Echtzeit-Aufgaben:
- GPT-Realtime-2 fuer Live-Sprachdialoge mit staerkerem Reasoning
- GPT-Realtime-Translate fuer Sprachuebersetzung waehrend des Sprechens
- GPT-Realtime-Whisper fuer laufende Speech-to-Text-Transkription
Besonders auffaellig ist dabei der Anspruch an Zusammenspiel statt Einzelfunktion. OpenAI beschreibt Voice-Anwendungen nicht mehr nur als schnelle Audio-Antwort, sondern als Systeme, die waehrend eines laufenden Gespraechs zuhoeren, nachdenken, Werkzeuge nutzen, uebersetzen, transkribieren und reagieren koennen.
Was bei GPT-Realtime-2 neu ist
Fuer GPT-Realtime-2 nennt OpenAI mehrere produktrelevante Upgrades:
- ein auf Sprachdialoge ausgerichtetes Modell mit GPT-5-Klasse beim Reasoning
- konfigurierbare Reasoning-Stufen von minimal bis xhigh
- eine Erweiterung des Kontextfensters von 32K auf 128K
- sichtbarere Tool-Nutzung mit kurzen Zwischenhinweisen wie sinngemaess "ich pruefe das gerade"
- robustere Fehlerbehandlung, damit Gespraeche nicht einfach still abbrechen
Damit schiebt OpenAI die Realtime-Schiene klar in Richtung agentischer Sprachassistenten, die nicht nur hoeren und antworten, sondern auch komplexere Aufgaben sauber durch den Dialog tragen sollen.
Warum Translate und Whisper fuer den Launch genauso wichtig sind
Der vielleicht praktischere Teil der Ankuendigung steckt in den beiden Spezialmodellen:
- GPT-Realtime-Translate soll Sprache aus mehr als 70 Eingangssprachen in 13 Zielsprachen live uebersetzen.
- GPT-Realtime-Whisper ist als neue Streaming-Transkription fuer niedrige Latenz gedacht.
Gerade diese Trennung ist fuer Entwickler relevant. Nicht jede Anwendung braucht ein vollwertiges Speech-to-Speech-Agentensystem. Viele Teams benoetigen vor allem Live-Untertitel, Meeting-Transkripte, Telefonie-Mitschriften oder direkte Sprachuebersetzung. OpenAI schafft dafuer jetzt ein klarer getrenntes Produkt- und Preismodell.
Preise und Verfuegbarkeit
OpenAI nennt zum Start bereits die offiziellen API-Preise:
| Modell | Aufgabe | Startpreis |
|---|---|---|
| GPT-Realtime-2 | Live-Sprachdialoge | 32 Dollar pro 1 Mio. Audio-Input-Tokens und 64 Dollar pro 1 Mio. Audio-Output-Tokens |
| GPT-Realtime-Translate | Live-Uebersetzung | 0,034 Dollar pro Minute |
| GPT-Realtime-Whisper | Live-Transkription | 0,017 Dollar pro Minute |
Zusaetzlich nennt OpenAI fuer GPT-Realtime-2 auch Text- und Bildpreise innerhalb derselben Modellfamilie. Das ist relevant, weil moderne Voice-Apps oft nicht nur Audio verarbeiten, sondern im Hintergrund auch Text, Bilder oder Tool-Ergebnisse mitziehen.
Warum die Realtime-API dadurch gerade jetzt wichtiger wird
Die technische Einordnung aus den OpenAI-Dokumenten ist eindeutig: Die Realtime-API unterstuetzt bereits WebRTC fuer Browser- und Client-Szenarien, WebSocket fuer Server-Integrationen und SIP fuer Telefonie. Mit den neuen Modellen ist die Plattform damit nicht nur ein Audio-Experiment, sondern ein deutlich breiterer Baukasten fuer:
- Sprachagenten im Browser
- Callcenter- und Support-Systeme
- Live-Uebersetzung in Meetings oder Events
- Transkriptions- und Captioning-Workflows
OpenAI nennt selbst Beispiele wie Zillow, Priceline, Vimeo und Deutsche Telekom. Wichtig ist dabei die Formulierung: Das sind von OpenAI genannte Partner- oder Testbeispiele, nicht automatisch ein vollstaendig unabhaengiger Marktvergleich.
Einordnung
Die Meldung vom 7. Mai 2026 ist deshalb relevanter als ein weiteres Audio-Update. OpenAI liefert nicht nur ein neues Voice-Flaggschiff, sondern gleich drei klar getrennte Realtime-Bausteine mit sofortiger API-Verfuegbarkeit, offizieller Preisstruktur und klaren Einsatzpfaden fuer Browser, Server und Telefonie.
Fuer Leser mit Produkt-, Support- oder Entwicklerfokus ist genau das der Kern: Voice-AI rueckt ein Stueck weiter weg von beeindruckenden Demos und naeher an echte Produktionssysteme. Ob GPT-Realtime-2 im Alltag wirklich die versprochene Zuverlaessigkeit bei Tool-Nutzung, Unterbrechungen und mehrsprachigen Dialogen liefert, wird sich erst in den kommenden Wochen zeigen. Der offizielle Start ist aber seit 7. Mai 2026 klar bestaetigt.