Auf die Schnelle

Anfang Mai 2026 hat OpenAI drei neue Realtime-Voice-Modelle in seiner API veröffentlicht: eines für Gespräche mit Reasoning auf GPT-5-Niveau, eines für Live-Übersetzung in über 70 Sprachen, eines für laufende Transkription. Damit wird der KI-Telefonassistent endlich gut genug für den echten Kundenkontakt.

Sprechende KI gibt es seit Jahren, brauchbar war sie selten. Sie verstand schlecht, antwortete steif und verhaspelte sich bei Zahlen. Mit drei neuen Modellen, die OpenAI Anfang Mai 2026 in seine Programmierschnittstelle gebracht hat, ändert sich das hörbar. Für kleine Betriebe ist das interessanter, als es nach Entwicklerthema klingt.

Drei Modelle, drei Aufgaben

OpenAI liefert die neuen Modelle als Bausteine für die Programmierschnittstelle. Eine fertige App zum Anklicken ist nicht dabei. Andere Firmen bauen daraus Telefonassistenten, Übersetzer und Diktiergeräte. Die Aufteilung ist klar.

Das erste Modell, GPT-Realtime-2, führt echte Gespräche und bringt dabei Reasoning auf dem Niveau der aktuellen GPT-5-Generation mit. Es hört zu, denkt nach und reagiert auf das, was wirklich gesagt wurde. Frühere Sprachbots spulten dagegen oft nur vorgefertigte Antworten ab. Das zweite Modell, GPT-Realtime-Translate, übersetzt gesprochene Sprache live in über 70 Sprachen, während jemand redet. Das dritte, GPT-Realtime-Whisper, schreibt laufende Sprache als Text mit.

Der Sprung gegenüber den Vorgängern liegt vor allem im Verstehen. Die Modelle folgen Anweisungen genauer und lassen sich seltener aus dem Konzept bringen, wenn ein Anrufer mitten im Satz die Richtung wechselt. Genau daran sind frühere Sprachbots regelmäßig gescheitert.

Warum das für einen kleinen Betrieb zählt

Stell dir das Telefon einer Praxis am Montagmorgen vor. Es klingelt ununterbrochen, die Anmeldung kommt nicht hinterher, und die Hälfte der Anrufer will nur einen Termin verschieben. Genau für diese immer gleichen Fälle taugt ein Sprachassistent, der wirklich versteht, was gewünscht ist, und nicht nach dem dritten Halbsatz aussteigt.

Dazu kommt die Übersetzung. Ein Handwerksbetrieb mit Kundschaft aus mehreren Ländern kann ein Gespräch live übersetzen lassen, ohne dass jemand zweisprachig sein muss. Was bisher teure Spezialtechnik war, wird zur Funktion, die in fertigen Werkzeugen mitkommt.

Auch der Preis spricht eine deutliche Sprache. Die Live-Übersetzung kostet OpenAI zufolge nur wenige Cent pro Minute, die reine Transkription noch weniger. Ein KI-Telefon, das nachts und am Wochenende Anrufe annimmt, ist damit kaum noch ein Budgetthema. Es scheitert höchstens an der Einrichtung. Und genau die ist der Teil, den viele unterschätzen.

Wo der Haken liegt

So gut die Technik klingt, ein paar Dinge bleiben Handarbeit. Ein Sprachassistent ist nur so klug wie die Informationen, die du ihm gibst. Öffnungszeiten, Preise, häufige Fragen, Übergaberegeln an einen Menschen, all das muss jemand sauber hinterlegen.

Und es gibt Grenzen, die man kennen sollte. Ein erbostes Reklamationsgespräch gehört an einen Menschen, nicht an einen Bot. Daten von Anrufern landen bei einem KI-Dienst, also gehört der Vertrag zur Auftragsverarbeitung geprüft, bevor das System echte Gespräche annimmt.

Was das für KMU bedeutet

Die neuen Modelle verschieben die Grenze des Machbaren. Ein Sprachassistent, der zuverlässig versteht und übersetzt und dabei kaum etwas kostet, war vor einem Jahr noch ein Versprechen, jetzt ist er Alltag bei den Anbietern, die solche Tools bauen. Der Engpass liegt damit nicht mehr bei der KI, sondern bei der Frage, wer im Betrieb entscheidet, welche Anrufe ein Bot übernehmen darf und welche nicht, und wer ihn mit den richtigen Antworten füttert. Diese Einrichtung ist kein Hexenwerk, sie braucht aber jemanden, der versteht, wie solche Systeme ticken. Wer sich das einmal in Ruhe anschaut, spart sich später teure Fehlkonfigurationen und blamable Anrufe.

Häufige Fragen

Welche neuen Voice-Modelle hat OpenAI veröffentlicht?

Anfang Mai 2026 hat OpenAI drei neue Realtime-Modelle in seine API gebracht: GPT-Realtime-2 führt Gespräche mit Reasoning auf GPT-5-Niveau, GPT-Realtime-Translate übersetzt gesprochene Sprache live in über 70 Sprachen, und GPT-Realtime-Whisper schreibt laufende Sprache als Text mit.

Was bringen die neuen Modelle für kleine Betriebe?

Sie machen den KI-Telefonassistenten brauchbar. Ein Sprachassistent versteht jetzt zuverlässiger und kann Standardanrufe annehmen, etwa Terminwünsche. Dazu kommt die Live-Übersetzung für Kundschaft aus mehreren Ländern, und das zu wenigen Cent pro Minute.

Kann ich die Modelle direkt nutzen?

Nicht als fertige App. OpenAI liefert die Modelle als Bausteine für die Programmierschnittstelle. Andere Anbieter bauen daraus Telefonassistenten, Übersetzer und Diktiergeräte. Du nutzt die Technik also über ein fertiges Werkzeug, nicht direkt.

Worauf sollte man beim KI-Telefon achten?

Ein Sprachassistent ist nur so gut wie die Informationen, die du ihm gibst, also Öffnungszeiten, Preise und Übergaberegeln an einen Menschen. Erboste Reklamationen gehören an einen Mitarbeiter, und vor dem Echtbetrieb gehört der Vertrag zur Auftragsverarbeitung geprüft.

Mehr über KI im Mittelstand lernen?

Im kostenlosen KI-Schnupperkurs zeigen wir in fünf Lektionen, wie kleine und mittlere Firmen KI praktisch und wirtschaftlich einsetzen. Vollkurs Digitalisierungsmanager mit Bildungsgutschein. Förderwege: Bildungsgutschein, QCG und AFBG im Vergleich.


Zuletzt aktualisiert: 11.06.2026. Stand der Recherche: 11.06.2026.