Die NVIDIA GB300 Blackwell Ultra wird seit Januar 2026 ausgeliefert und ist der Chip, auf dem gerade ein Großteil der neuen Frontier-KI-Modelle trainiert und betrieben wird. Als KMU kaufst du diesen Chip nicht. Aber die Konsequenzen siehst du trotzdem auf deiner Rechnung, in den Modellen, die du ab Sommer nutzt, und in den Preisen, die Cloud-Anbieter verlangen.

Das Wichtigste in Kürze

Was ist die GB300 überhaupt

Die Blackwell-Ultra-Reihe ist NVIDIAs neueste Generation an KI-Beschleunigern. Die einzelne B300-GPU hat 288 GB HBM3e-Speicher und eine Speicherbandbreite von 8 TB pro Sekunde. Für jeden, der nicht täglich mit diesen Zahlen arbeitet: Das ist etwa fünfmal so viel Speicher wie in typischen 2022er-Karten und ungefähr das Doppelte der Vorgängergeneration H100.

Der eigentliche Verkaufshit ist aber nicht die einzelne GPU, sondern das GB300 NVL72. Das ist ein Rack, in dem 72 B300-GPUs und 36 Grace-CPUs als ein zusammenhängender Compute-Cluster arbeiten. Wassergekühlt, weil ein solches Rack im Normalbetrieb über 100 Kilowatt zieht. Zum Vergleich: Ein durchschnittlicher deutscher Vier-Personen-Haushalt verbraucht rund 4000 Kilowattstunden im ganzen Jahr. Ein NVL72-Rack verbrennt das in etwa 40 Stunden.

Wer die Chips bekommt

Die großen Kunden in 2026 sind Microsoft, CoreWeave und Oracle Cloud. Auch Meta, Google und AWS haben Bestellungen platziert. NVIDIA hat mehrfach kommuniziert, dass man in 2026 bis zu 60.000 Racks ausliefern will. Das sind aggregiert über vier Millionen GPUs.

Wichtig für dich: Diese Chips laufen nicht in deutschen Rechenzentren. Sie stehen in Virginia, Texas, Arizona, Washington State, Singapur, Japan. Ein kleinerer Anteil geht nach Europa, aber der Trainings-Hotspot bleibt USA. Wenn du ein Reasoning-Modell wie Claude Opus 4.7 oder GPT-5 nutzt, ist die Chance hoch, dass der Call an einer B300 in den USA landet.

Was das für KMU kostet und spart

Hier wird es für dich konkret. Die B300-Chips sind deutlich effizienter als die Vorgänger, insbesondere bei sogenanntem Long-Context-Inferencing. Das ist genau der Modus, in dem moderne Modelle mit 200k- bis 1-Millionen-Token-Fenstern arbeiten.

Die Konsequenz siehst du bereits. Anthropic, OpenAI und Google haben die Preise für ihre Flaggschiff-Modelle seit Jahresbeginn nicht erhöht, obwohl die Modelle grösser und leistungsfähiger geworden sind. Claude Sonnet 4.6 kostet heute das Gleiche wie Sonnet 4.5 vor sechs Monaten, bei deutlich besserer Leistung. Haiku und die kleineren Modelle sind im letzten Jahr sogar preiswerter geworden.

Für dich heißt das: Der Inferenz-Preis pro 1000 Tokens fällt, während die Modell-Qualität steigt. Use Cases, die vor einem Jahr noch 500 Euro pro Monat gekostet haben, laufen heute für 150. Das ist nicht PR. Das ist der Hardware-Effekt, den die GB300-Welle jetzt gerade in Realtime produziert.

Was deine Cloud-Rechnung bremsen könnte

Die andere Seite der Medaille. Wer statt bei OpenAI oder Anthropic direkt bei AWS, Azure oder GCP GPU-Kapazität mietet, bezahlt nicht die optimierte Inferenz-Preisliste. Da bezahlst du die Hardware-Miete. Und die ist hoch. Eine einzelne H100-Stunde auf AWS kostet aktuell rund 11 bis 14 Euro, eine B200-Stunde 25 bis 35 Euro.

CoreWeave, Lambda Labs und einige andere spezialisierte Anbieter sind inzwischen oft günstiger als die Hyperscaler. Wer selbst Fine-Tuning oder grössere Batch-Inferenz fährt, sollte die Preise bei den Spezialisten wenigstens angeschaut haben.

Fakten-Anker für die Praxis

In der Praxis sehen wir bei KMU zwei Muster. Erstens: Wer nur via API auf Claude, GPT oder Gemini zugreift, profitiert direkt von fallenden Preisen und besseren Modellen, ohne irgendetwas zu tun. Zweitens: Wer eigene Modelle finetunt oder spezialisierte Inferenz-Server betreibt, muss die Hardware-Frage aktiv entscheiden. Für die zweite Gruppe ist ein Check bei CoreWeave oder Nebius gegen AWS inzwischen fast Pflicht.

Wer hingegen plant, selbst GPUs zu kaufen, sollte das gut begründen können. Eine einzelne B200 kostet in der aktuellen Liste rund 40.000 USD. Eine H200 ist mittlerweile bei 25.000 USD angekommen. Für die allermeisten KMU macht Cloud-Miete wirtschaftlich weiterhin mehr Sinn als Eigenhardware. Die Einsätze, bei denen Eigenhardware rechnet, sind Datenschutz-kritische Workloads oder Trainings mit Datenmengen, die du nicht in eine US-Cloud legen willst.

Was die GB300 für kommende Modelle bedeutet

Die neue Hardware erlaubt längeren Kontext und mehr Reasoning-Tiefe. Du wirst in den nächsten sechs Monaten Modelle sehen, die folgendes können: komplette ERP-Logs in einem Durchgang analysieren, stundenlange Meeting-Transkripte zusammenfassen ohne zu halluzinieren, Code-Basen mit 100.000 Zeilen in einem einzigen Prompt refaktorieren.

OpenAI arbeitet laut WSJ-Berichten vom März an Modellen, die speziell für diese neue Hardware-Klasse gebaut sind. Anthropic hat bereits öffentlich gesagt, dass Claude Opus 4.7 vom B300-Ausbau profitiert. Gemini 2.5 Pro läuft auf Googles TPUs, aber die Konkurrenzsituation ändert sich durch die B300-Welle trotzdem.

Konkrete Handlungsempfehlung

Wenn dein KMU heute KI-APIs nutzt, musst du in den nächsten Monaten nichts tun. Die Preise werden tendenziell fallen oder stabil bleiben. Teste regelmässig, ob kleinere Modelle wie Claude Haiku oder GPT-5 mini für deinen Use Case ausreichen. In sechs Monaten kann das Modell, das vor einem Jahr noch Flaggschiff-Preis hatte, für ein Fünftel des Tokens dasselbe leisten.

Wenn dein KMU eigene GPU-Workloads fährt: Rechne bei jeder Erneuerung die Cloud-Alternative mit. Die Kapazität ist in 2026 besser verfügbar als in den zwei Jahren davor. Und Anbieter wie CoreWeave oder Nebius haben oft bessere Preise als AWS oder Azure für reine GPU-Miete.

Wir arbeiten bei SkillSprinters gerade an einem DigiMan-Modul, das genau diese Entscheidungsmatrix durchspielt: API versus eigene Hardware versus Spezialhoster, mit echten Zahlen aus drei Pilot-Betrieben. Die meisten KMU unterschätzen, wie stark sich das Kostenbild in 12 Monaten verschoben hat.

FAQ

Was ist die NVIDIA GB300?

Die GB300 ist NVIDIAs Server-Rack auf Basis der neuen Blackwell-Ultra-B300-GPUs. Ein vollständiges GB300-NVL72-Rack enthält 72 B300-GPUs und 36 Grace-CPUs, wassergekühlt. Es wird für Training und Inferenz großer KI-Modelle genutzt.

Wie viel kostet eine B300 GPU?

Offizielle Listenpreise nennt NVIDIA nicht öffentlich, aber Schätzungen liegen pro Chip bei rund 40.000 USD. Ein komplettes NVL72-Rack kostet laut Analystenangaben über 3 Millionen USD. Für KMU relevant ist jedoch nicht der Kauf, sondern die Cloud-Miete.

Kann ich als KMU eine B300 mieten?

Direkt mieten kannst du sie bei spezialisierten Anbietern wie CoreWeave, Lambda Labs oder Nebius. Bei AWS, Azure und GCP läuft die Vermietung über deren eigene Instanz-Typen. Für die meisten KMU-Use-Cases ist es allerdings sinnvoller, via API auf fertige Modelle wie Claude oder GPT zuzugreifen, statt selbst GPU-Stunden zu buchen.

Wird KI durch die GB300 jetzt billiger?

Tendenziell ja, zumindest beim API-Zugriff auf große Modelle. Anbieter wie Anthropic und OpenAI halten Listenpreise stabil und liefern dafür bessere Modelle. Wer GPU-Kapazität direkt mietet, sieht dagegen eher stabile bis leicht steigende Preise, weil die Nachfrage hoch bleibt.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp