← Zurück zur Übersicht OpenAI startet neue Realtime-Voice-Modelle: GPT-Realtime-2, Translate und Whisper sind live

OpenAI startet neue Realtime-Voice-Modelle: GPT-Realtime-2, Translate und Whisper sind live

OpenAI startet neue Realtime-Voice-Modelle

Stand: 8. Mai 2026, 08:00 Uhr CEST. OpenAI hat am Donnerstag, 7. Mai 2026, drei neue Sprachmodelle fuer die Realtime API vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Der eigentliche Nachrichtenwert liegt nicht nur in den neuen Namen. Laut OpenAI sind alle drei Modelle ab sofort in der Realtime API verfuegbar und zielen klar auf produktive Sprachanwendungen statt auf reine Demo-Features.

Lokales Artikelbild zu OpenAIs neuen Realtime-Voice-Modellen

Was OpenAI am 7. Mai 2026 konkret angekuendigt hat

OpenAI positioniert den Launch als neues Paket fuer drei unterschiedliche Echtzeit-Aufgaben:

  • GPT-Realtime-2 fuer Live-Sprachdialoge mit staerkerem Reasoning
  • GPT-Realtime-Translate fuer Sprachuebersetzung waehrend des Sprechens
  • GPT-Realtime-Whisper fuer laufende Speech-to-Text-Transkription

Besonders auffaellig ist dabei der Anspruch an Zusammenspiel statt Einzelfunktion. OpenAI beschreibt Voice-Anwendungen nicht mehr nur als schnelle Audio-Antwort, sondern als Systeme, die waehrend eines laufenden Gespraechs zuhoeren, nachdenken, Werkzeuge nutzen, uebersetzen, transkribieren und reagieren koennen.

Was bei GPT-Realtime-2 neu ist

Fuer GPT-Realtime-2 nennt OpenAI mehrere produktrelevante Upgrades:

  • ein auf Sprachdialoge ausgerichtetes Modell mit GPT-5-Klasse beim Reasoning
  • konfigurierbare Reasoning-Stufen von minimal bis xhigh
  • eine Erweiterung des Kontextfensters von 32K auf 128K
  • sichtbarere Tool-Nutzung mit kurzen Zwischenhinweisen wie sinngemaess "ich pruefe das gerade"
  • robustere Fehlerbehandlung, damit Gespraeche nicht einfach still abbrechen

Damit schiebt OpenAI die Realtime-Schiene klar in Richtung agentischer Sprachassistenten, die nicht nur hoeren und antworten, sondern auch komplexere Aufgaben sauber durch den Dialog tragen sollen.

Warum Translate und Whisper fuer den Launch genauso wichtig sind

Der vielleicht praktischere Teil der Ankuendigung steckt in den beiden Spezialmodellen:

  • GPT-Realtime-Translate soll Sprache aus mehr als 70 Eingangssprachen in 13 Zielsprachen live uebersetzen.
  • GPT-Realtime-Whisper ist als neue Streaming-Transkription fuer niedrige Latenz gedacht.

Gerade diese Trennung ist fuer Entwickler relevant. Nicht jede Anwendung braucht ein vollwertiges Speech-to-Speech-Agentensystem. Viele Teams benoetigen vor allem Live-Untertitel, Meeting-Transkripte, Telefonie-Mitschriften oder direkte Sprachuebersetzung. OpenAI schafft dafuer jetzt ein klarer getrenntes Produkt- und Preismodell.

Preise und Verfuegbarkeit

OpenAI nennt zum Start bereits die offiziellen API-Preise:

Modell Aufgabe Startpreis
GPT-Realtime-2 Live-Sprachdialoge 32 Dollar pro 1 Mio. Audio-Input-Tokens und 64 Dollar pro 1 Mio. Audio-Output-Tokens
GPT-Realtime-Translate Live-Uebersetzung 0,034 Dollar pro Minute
GPT-Realtime-Whisper Live-Transkription 0,017 Dollar pro Minute

Zusaetzlich nennt OpenAI fuer GPT-Realtime-2 auch Text- und Bildpreise innerhalb derselben Modellfamilie. Das ist relevant, weil moderne Voice-Apps oft nicht nur Audio verarbeiten, sondern im Hintergrund auch Text, Bilder oder Tool-Ergebnisse mitziehen.

Warum die Realtime-API dadurch gerade jetzt wichtiger wird

Die technische Einordnung aus den OpenAI-Dokumenten ist eindeutig: Die Realtime-API unterstuetzt bereits WebRTC fuer Browser- und Client-Szenarien, WebSocket fuer Server-Integrationen und SIP fuer Telefonie. Mit den neuen Modellen ist die Plattform damit nicht nur ein Audio-Experiment, sondern ein deutlich breiterer Baukasten fuer:

  • Sprachagenten im Browser
  • Callcenter- und Support-Systeme
  • Live-Uebersetzung in Meetings oder Events
  • Transkriptions- und Captioning-Workflows

OpenAI nennt selbst Beispiele wie Zillow, Priceline, Vimeo und Deutsche Telekom. Wichtig ist dabei die Formulierung: Das sind von OpenAI genannte Partner- oder Testbeispiele, nicht automatisch ein vollstaendig unabhaengiger Marktvergleich.

Einordnung

Die Meldung vom 7. Mai 2026 ist deshalb relevanter als ein weiteres Audio-Update. OpenAI liefert nicht nur ein neues Voice-Flaggschiff, sondern gleich drei klar getrennte Realtime-Bausteine mit sofortiger API-Verfuegbarkeit, offizieller Preisstruktur und klaren Einsatzpfaden fuer Browser, Server und Telefonie.

Fuer Leser mit Produkt-, Support- oder Entwicklerfokus ist genau das der Kern: Voice-AI rueckt ein Stueck weiter weg von beeindruckenden Demos und naeher an echte Produktionssysteme. Ob GPT-Realtime-2 im Alltag wirklich die versprochene Zuverlaessigkeit bei Tool-Nutzung, Unterbrechungen und mehrsprachigen Dialogen liefert, wird sich erst in den kommenden Wochen zeigen. Der offizielle Start ist aber seit 7. Mai 2026 klar bestaetigt.

Quellen