GPT-5.5 (SPUD): Was OpenAI für 2026 plant

OpenAI hat GPT-5.5, intern unter dem Codenamen Spud entwickelt, am 23. April als Nachfolger von GPT-5.4 ausgerollt. Sechs Wochen nach 5.4. Doppelter API-Preis am Output, gleichzeitig laut OpenAI 40 Prozent weniger Output-Token pro Aufgabe. Wer auf 5.4 läuft und überlegt zu wechseln, sollte sich das einmal in Ruhe ansehen, bevor die Rechnung am Monatsende kommt.

Auf einen Blick: GPT-5.5 (Codename Spud) ist seit 23.04.2026 in ChatGPT und Codex live, einen Tag später auch in der API. Preis: 5 USD pro Mio Input-Token, 30 USD pro Mio Output. Pro-Variante: 30 USD/180 USD. Context Window 1 Mio Token. Stärken: agentisches Coding, Computer-Use, Long-Running-Agents. Claude Opus 4.7 schlägt Spud bei reinen Reasoning-Benchmarks (SWE-Bench Pro 64,3 vs. 58,6).

Was Spud konkret kann

OpenAI positioniert GPT-5.5 als "smartest model" und meint damit konkret: weniger Prompt-Engineering nötig. Der Punkt ist nicht trivial. Bei 5.4 musste man immer noch klare Schrittanleitungen formulieren, sonst kam Halbgares raus. Spud handelt rougher Anweisungen besser ab und plant Zwischenschritte selbst.

Drei Benchmark-Werte, die OpenAI in der Ankündigung hervorhebt:

GDPval (Knowledge Work über 44 Berufe): 84,9 Prozent
OSWorld-Verified (Computer-Use): 78,7 Prozent
Tau2-bench Telecom (Customer-Service-Workflows): 98,0 Prozent ohne Prompt-Tuning

Das sind die Zahlen, die OpenAI selbst veröffentlicht. Sie sind im Bereich agentischer Workflows tatsächlich beeindruckend. Bei reinen Reasoning-Tests sieht es anders aus, dazu gleich.

Die Codex-Integration ist der zweite große Punkt. NVIDIA berichtet, dass eigene Engineering-Teams Codex schon intern auf Spud-Basis einsetzen, um Hardware-Dokumentation und Treiber-Code zu warten. Für KMU heißt das: Wer Codex sowieso nutzt, bekommt das Update automatisch.

Der Preis-Twist

Hier wird es interessant. GPT-5.5 ist am Output 17 Prozent teurer als Opus 4.7 und doppelt so teuer wie GPT-5.4. OpenAI argumentiert: Spud braucht 40 Prozent weniger Output-Token, also bleibt die echte Rechnung nur etwa 20 Prozent über 5.4.

Modell	Input/Mio Token	Output/Mio Token	Context
GPT-5.4	2,50 USD	10 USD	1 Mio
GPT-5.5	5 USD	30 USD	1 Mio
GPT-5.5 Pro	30 USD	180 USD	1 Mio
Claude Opus 4.7	5 USD	25 USD	1 Mio

Pro ist eine eigene Liga. 180 USD pro Mio Output-Token entspricht dem Niveau, auf dem du Modelle nur dann buchst, wenn du echte Reasoning-Tiefe brauchst und der Prompt teuer war zu erarbeiten. Für Standard-KMU-Use-Cases ist das Overkill.

Die Batch-API läuft bei 50 Prozent Rabatt, der Flex-Tier ebenfalls. Wer große Mengen Backend-Verarbeitung macht und nicht auf Echtzeit angewiesen ist, halbiert damit die Kosten.

Wer KI im Alltag souverän einsetzen will, ohne sich von jedem Modell-Release nervös machen zu lassen, braucht solide Grundlagen. Im 5-Tage-KI-Schnupperkurs lernst du in fünf Lektionen, wie du ChatGPT, Claude und Co. praktisch im Beruf nutzt, ohne dass dein Workflow von API-Preisrunden abhängt.

Spud vs. Claude Opus 4.7

Beide Modelle sind seit Mitte April auf dem Markt. Anthropic hat Opus 4.7 am 16.04. ausgerollt, Spud kam eine Woche später. Die Wettbewerbslogik ist klar: OpenAI wollte vor dem Monatsende noch ein Statement setzen.

Bei den Reasoning-Benchmarks liegt Opus vorne. SWE-Bench Pro (eines der härtesten Coding-Benchmarks): Opus 64,3 Prozent, Spud 58,6 Prozent. GPQA, HLE, MCP Atlas, FinanceAgent v1.1 gehen ebenfalls an Anthropic.

Bei agentischen Tests dreht sich das Bild. Terminal-Bench 2.0: Spud 82,7, Opus 69,4. BrowseComp, OSWorld, CyberGym ebenfalls Pluspunkte für OpenAI.

Tom's Guide hat in einem Side-by-Side-Test über sieben Aufgaben Spud gegen Opus 4.7 antreten lassen. Ergebnis: 7-0 für Spud. Bei der Auswertung muss man dazusagen: Tom's-Guide-Tests sind eher praktisch-redaktionell, keine wissenschaftlichen Benchmarks. Aber die Richtung passt zu den offiziellen Zahlen, was agentische Workflows betrifft.

In serving data ist Opus deutlich schneller beim ersten Token (TTFT 0,5 Sekunden gegen 3 Sekunden bei Spud). Wer Chat-Anwendungen baut, bei denen der Nutzer auf die erste Antwort wartet, sollte das mitdenken.

Was die SPUD-Hülle nicht löst

Hallucinations sind nach wie vor ein Thema. Mehrere Reviewer berichten, dass Spud bei Faktenwissen Lücken überspielt, wenn der Trainings-Stand nicht ausreicht. Das ist kein Versagen von OpenAI allein, sondern eine architektonische Frage, die alle Frontier-Modelle teilen.

Der zweite Punkt: API-Zugang kam einen Tag später als ChatGPT-Zugang, weil OpenAI nach eigenen Angaben noch zusätzliche Cybersecurity-Guardrails einbauen wollte. Das deutet darauf hin, dass intern eine Risikobewertung lief. Für Enterprise-Kunden ist das ein gutes Signal, für hektische Early-Adopter eher Geduld-Übung.

Drittens: GPT-5.5 ist kein Sprung wie damals 4 → 5. Es ist eine sechste Iteration in einem halben Jahr. Wer nach echten Generationssprüngen sucht, wartet besser auf das, was OpenAI als GPT-6 ankündigen wird.

Wann sich der Wechsel lohnt, wann nicht

Aus der Praxis bei Teilnehmern und KMU-Projekten sehen wir drei klare Muster.

Wer GPT-5.4 für Mails, Texte, einfache Recherchen nutzt, merkt vom Update wenig und kann ruhig ein bis zwei Iterationen abwarten. Die Mehrkosten lohnen sich bei diesen Workflows nicht, und das Verhalten ändert sich kaum. Ein Mittelständler, der ChatGPT Team-Tarife für seine Sachbearbeiter zahlt, hat keinen messbaren Produktivitätsgewinn vom Update.

Wer agentische Pipelines baut, also Workflows, die über mehrere Tools laufen, Daten holen, Entscheidungen treffen, neue Aktionen anstoßen, profitiert deutlich. Hier sind die 84,9 Prozent auf GDPval und die 78,7 Prozent auf OSWorld nicht akademisch, sondern direkt im Einsatz spürbar. Customer-Service-Bots, automatisierte Recherche-Agents, Daten-Aufbereitungs-Pipelines werden mit Spud robuster.

Wer Code-Reviews und Refactorings braucht, sollte beide Modelle gegeneinander antreten lassen. SWE-Bench Pro spricht für Opus 4.7, aber Terminal-Bench für Spud. Die Wahl hängt davon ab, ob du eher Code-Verständnis-Tiefe (Opus) oder Multi-Step-Tool-Use (Spud) brauchst. Wer das Glück hat, beide zu testen, sollte sich ein paar typische Aufgaben aussuchen und parallel laufen lassen.

Was Spud für die deutsche KMU-Realität bedeutet

Die Modell-Bezeichnungen ändern sich schneller, als die Mehrheit der Mittelständler hinterherkommt. Wir sehen bei unseren Teilnehmern regelmäßig, dass Firmen erst ChatGPT Plus eingeführt haben, dann das Team-Abo dazugebucht, dann auf Enterprise upgraden wollten und jetzt vor einer doppelt so teuren Pro-Stufe stehen, die sie eigentlich gar nicht brauchen.

Praktischer Rat: Trenne den ChatGPT-Endkunden-Zugang von der API-Nutzung. Im Browser arbeiten deine Mitarbeiter, hier ist das Update von 5.4 auf 5.5 in Plus und Team automatisch und kostet nichts extra. Auf der API-Seite, wo du eigene Workflows oder Integrationen baust, lohnt sich ein Tagesbudget-Limit und ein Modell-Switch nur dann, wenn du gemessen hast, dass es sich rechnet.

Die zweite Beobachtung aus der Praxis: Wer Spud heute einkauft, weil es das neueste ist, hat in zwei Monaten wieder das gleiche Thema. OpenAI cycelt Modelle inzwischen alle vier bis sechs Wochen. Die nachhaltige Strategie ist nicht "immer das Neueste", sondern "immer das, was die konkrete Aufgabe am günstigsten löst".

Der Roadmap-Hinweis

OpenAI hat in der Ankündigung von einem Schritt Richtung "AI Super-App" gesprochen. Was damit konkret gemeint ist, bleibt vage. TechCrunch interpretiert das als Plattform, in der ChatGPT, Codex, Sora, DALL-E und Tool-Use unter einer Oberfläche zusammenwachsen, mit dem Modell als Vermittler.

Für KMU heißt das mittelfristig: Die Trennung zwischen Chat, Agent, Coder, Bildgenerator wird verschwimmen. Statt vier Tools zu lizenzieren, abonnierst du ein Frontend, das auswählt, welches Modell für welche Aufgabe richtig ist. Das ist langfristig komfortabel und teuer.

FAQ

Wie viel kostet GPT-5.5 in der API?

5 USD pro Mio Input-Token und 30 USD pro Mio Output-Token in der Standard-Variante. Die Pro-Variante kostet 30 USD bei Input und 180 USD bei Output pro Mio Token. Batch-API und Flex-Tier sind je 50 Prozent günstiger. Vergleichswert: Claude Opus 4.7 liegt bei 5/25 USD.

Lohnt sich der Wechsel von GPT-5.4 auf 5.5?

Hängt vom Use-Case ab. Bei agentischen Workflows, Code-Tasks, die mehrere Tools nutzen, oder Computer-Use-Szenarien ist Spud spürbar besser. Bei Mails, Texten, einfachen Recherchen merkst du wenig und zahlst etwa 20 Prozent mehr. ChatGPT-Plus- und Team-Nutzer bekommen das Update kostenlos.

Was bedeutet der Codename Spud?

Spud war der interne OpenAI-Codename während der Entwicklung. Vor dem Release tauchten erste Berichte über ein Modell mit diesem Namen auf, woraus die Branchenpresse die Verbindung zu GPT-5.5 hergestellt hat. Eine offizielle Bedeutung hinter dem Codenamen hat OpenAI nicht kommuniziert.

Wo kann ich GPT-5.5 nutzen?

In ChatGPT seit 23.04.2026 für Plus, Pro, Business, Enterprise. In Codex (OpenAI-eigenes CLI) seit demselben Tag. In der API seit 24.04.2026. GPT-5.5 Pro ist nur für Pro, Business, Enterprise verfügbar. Über Microsoft Azure OpenAI Service rollt das Modell typischerweise mit ein paar Tagen Verzögerung aus.

Mehr zu diesem Thema

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp

GPT-5.5 (SPUD): Was OpenAI für 2026 plant

Was Spud konkret kann

Der Preis-Twist

Spud vs. Claude Opus 4.7

Was die SPUD-Hülle nicht löst

Wann sich der Wechsel lohnt, wann nicht

Was Spud für die deutsche KMU-Realität bedeutet

Der Roadmap-Hinweis

FAQ

Wie viel kostet GPT-5.5 in der API?

Lohnt sich der Wechsel von GPT-5.4 auf 5.5?

Was bedeutet der Codename Spud?

Wo kann ich GPT-5.5 nutzen?

Mehr zu diesem Thema

Bereit für deinen nächsten Karriereschritt?

Das könnte dich auch interessieren

Claude Mythos: Was wir nach dem Anthropic-Leak wissen (April 2026)

Anthropic Mythos: Was KMU jetzt tun müssen (April 2026)

Bewerbung 2026: Anschreiben, Aufbau, Quereinsteiger-Tipps

Bewerbungsfoto 2026: Ja oder Nein? Was Personaler erwarten

Was ist ChatGPT Codex? Coding-Agent erklärt (April 2026)

ChatGPT Go vs Plus 2026: Deutsche Preise und Empfehlung

Wir nutzen Cookies