DeepSeek hat am 24.04.2026 die V4-Serie als Open-Source-Preview veröffentlicht. Das chinesische Lab liefert damit das erste Open-Source-Modell, das auf Frontier-Niveau spielt: V4-Pro-Max schlägt nach unabhängigen Tests GPT-5.2 und Gemini 3.0 Pro, liegt knapp unter GPT-5.4 und Gemini 3.1 Pro. Der Preis ist der eigentliche Schock. V4-Flash kostet 0,28 USD pro 1 Million Output-Tokens. Zum Vergleich: Claude Opus 4.7 kostet 25 USD. Das ist Faktor 89.

Auf einen Blick (TL;DR)

DeepSeek V4 (Preview) ist seit dem 24.04.2026 als Open Source unter MIT-Lizenz auf Hugging Face verfügbar. Zwei Varianten: V4-Pro mit 1,6 Billionen Parametern (49 Mrd. aktiv) und V4-Flash mit 284 Mrd. Parametern (13 Mrd. aktiv). Beide haben 1 Mio Token Kontextfenster. Pricing über die offizielle API: 3,48 USD pro 1 Mio Output-Tokens (Pro), 0,28 USD (Flash). Für KMU heißt das: Massenanwendungen werden bezahlbar. Datenschutzfragen bleiben, weil die offizielle API in China läuft. Wer das nicht will, kann das Modell selbst hosten. {: class="tldr-box"}

Was ist hier passiert, was bedeutet das für dein Unternehmen, und wo sind die Haken? Ich gehe das nüchtern durch.

Was ist DeepSeek V4?

DeepSeek ist ein chinesisches KI-Lab, das in den letzten 18 Monaten die Open-Source-Szene aufgemischt hat. V3 war im Dezember 2024 ein erster Aufmerksamkeitstreffer, R1 im Januar 2025 ein zweiter. V4 ist jetzt der erste echte Versuch, die geschlossenen Frontier-Modelle aus den USA preislich und technisch unter Druck zu setzen.

Die Zahlen, die in den letzten 24 Stunden durch die Tech-Presse gingen, sehen so aus:

Variante Parameter (gesamt) Parameter (aktiv) Kontext Output-Preis
DeepSeek V4-Pro 1,6 Billionen 49 Mrd. 1 Mio Tokens 3,48 USD / 1M Tokens
DeepSeek V4-Flash 284 Mrd. 13 Mrd. 1 Mio Tokens 0,28 USD / 1M Tokens

Aktiv heißt: Pro Anfrage werden nicht alle Parameter benutzt, sondern eine Auswahl (Mixture-of-Experts). Das macht das Modell schneller und günstiger als ein vergleichbar großes klassisches Modell.

Die Architektur kombiniert zwei neue Aufmerksamkeitsmechanismen, die DeepSeek "Compressed Sparse Attention" und "Heavily Compressed Attention" nennt. In der Praxis: V4 braucht laut DeepSeek nur 27 Prozent der Rechenleistung und 10 Prozent des Speichers der Vorversion V3.2, wenn der volle 1-Million-Token-Kontext genutzt wird. Das ist der Grund, warum die Preise so radikal niedrig sind.

V4-Pro vs V4-Flash: Welche Variante für was?

Zwei Modelle, klare Trennung.

V4-Pro ist das Hauptmodell. Es geht in Benchmarks an die Top-Modelle aus dem Westen heran. Anwendungsfälle: Komplexe Analyse, lange Dokumente verarbeiten, mehrstufiges Reasoning, Coding-Aufgaben. Einsatz dort, wo Qualität wichtiger ist als Kosten.

V4-Flash ist die kleinere Schwester. Schneller, billiger, schlechter im Reasoning, aber für 80 Prozent aller KMU-Anwendungsfälle völlig ausreichend. Klassifikation, Zusammenfassung, einfache Frage-Antwort, Routine-Texte.

Die Faustregel: Fang mit Flash an. Wenn die Antworten reichen, bleib bei Flash. Wenn nicht, hoch zu Pro.

Was das für KMU konkret bedeutet

Drei Dinge.

Erstens: Massenanwendungen werden bezahlbar. Wer bisher 5.000 Kunden-E-Mails pro Monat über ChatGPT klassifizieren wollte, hat dafür schnell 200 bis 400 USD gezahlt. Mit V4-Flash sind es bei gleicher Lastverteilung unter 5 USD. Das eröffnet Use-Cases, die vorher nicht rentabel waren: jedes Lead-Formular automatisch beantworten, jeden Buchungsbeleg vorsortieren, jeden Support-Fall vor-kategorisieren.

Eine konkrete Rechnung. Du hast 1.000 Kunden-Mails pro Tag, willst sie klassifizieren und eine Antwort vorschlagen. Pro Mail brauchst du circa 2.000 Input-Tokens (Mail + Kontext) und 500 Output-Tokens. Das sind 30 Mio Input und 7,5 Mio Output pro Monat:

Modell Input-Kosten Output-Kosten Gesamt/Monat
Claude Opus 4.7 150 USD 188 USD 338 USD
GPT-5.4 (Standard) ca. 240 USD ca. 225 USD ca. 465 USD
DeepSeek V4-Pro ca. 21 USD ca. 26 USD ca. 47 USD
DeepSeek V4-Flash ca. 1,7 USD ca. 2,1 USD ca. 4 USD

Die genauen Input-Preise kommuniziert DeepSeek bei der API noch granular nach Cache-Hit oder nicht. Die Größenordnung bleibt: Faktor 80 bis 100 günstiger als das Premium-Segment.

Zweitens: Selbst hosten ist eine echte Option. V4-Pro und V4-Flash stehen unter MIT-Lizenz auf Hugging Face. Pro hat 865 GB, Flash 160 GB. Pro braucht eine sehr gut ausgestattete Server-Umgebung. Flash läuft in einer reduzierten Quantisierung auf einem leistungsfähigen Mac Studio M3 Ultra oder einem Server mit 2x H100. Für KMU heißt das: Sensible Dokumente verlassen das eigene Netzwerk nicht. Das war bei Frontier-Modellen vorher praktisch unmöglich.

Drittens: Der Wettbewerb verschiebt sich. OpenAI, Anthropic und Google können den Preis nicht einfach mitgehen. Ihre Modelle sind teurer in der Inferenz, weil sie anders gebaut sind. Was wir in den nächsten Monaten sehen werden: Entweder kommen die US-Anbieter mit kleineren, billigeren Varianten nach, oder sie konzentrieren sich auf Premium-Use-Cases, in denen Qualität wichtiger ist als Preis.

Was sich nicht ändert

DeepSeek V4 ist kein Drop-in-Ersatz für ChatGPT.

Wer eine ChatGPT-Pro-Lizenz hat, nutzt das Web-Interface, die Custom-GPTs, den Bild-Generator, den Voice-Modus, die Datei-Uploads. DeepSeek bietet eine eigene Chat-Oberfläche, aber die Integration ins eigene Microsoft-365- oder Google-Workspace-Setup ist im Westen schwächer. Für Endanwender, die einfach im Browser mit der KI sprechen wollen, bleibt das ChatGPT-Plus-Abo die simplere Lösung.

Datenschutzfragen bleiben ebenfalls. Die offizielle DeepSeek-API läuft in China. Für deutsche KMU heißt das: Keine personenbezogenen Daten ohne Auftragsverarbeitungsvertrag, keine Geschäftsgeheimnisse, keine Mandantendaten. Wer V4 produktiv einsetzen will und Datenschutz priorisiert, hat zwei Wege: selbst hosten oder über einen europäischen Anbieter wie Hugging Face Inference Endpoints, der V4 in EU-Rechenzentren bereitstellt.

Auch die EU-AI-Act-Compliance ist nicht automatisch erledigt, nur weil das Modell günstig ist. Art. 4 KI-Kompetenzpflicht gilt seit dem 02.02.2025. Wenn du dein Team auf V4 umstellst, musst du dokumentieren, dass die Mitarbeiter wissen, was sie tun.

Praxis: Wann V4-Pro, wann V4-Flash, wann ein westliches Modell?

Ein nüchterner Entscheidungsbaum.

V4-Flash, wenn: Du Routine-Aufgaben in Masse hast (Mails klassifizieren, Texte zusammenfassen, Daten extrahieren), die Antworten dürfen mittelmäßig sein, du brauchst niedrige Kosten.

V4-Pro, wenn: Du komplexe Analysen brauchst, lange Dokumente bearbeitest, mehrstufige Aufgaben hast, aber preissensitiv bist. Beispiel: Verträge prüfen, technische Dokumentation erstellen, Daten in mehreren Schritten transformieren.

Claude Opus 4.7 oder GPT-5.4, wenn: Du auf höchstem Reasoning-Niveau arbeitest (Coding mit komplexen Refactorings, juristisches Drafting, wissenschaftliche Analyse), oder wenn du Datenschutz-zwingend einen vertrauenswürdigen Anbieter mit EU-Rechenzentrum brauchst und V4-Selbsthosting zu aufwendig ist.

Selbst gehostetes Llama oder Mistral, wenn: Du noch strenger beim Datenschutz bist und absolut keine Verbindung zu Drittanbietern willst, oder wenn deine IT bereits Open-Source-Modelle einsetzt und V4 noch nicht ausreichend getestet ist.

In der Praxis sehen wir bei unseren Teilnehmern aus dem Digitalisierungsmanager-Kurs ein klares Muster. Wer schon mit ChatGPT oder Claude arbeitet und Workflows aufgebaut hat, wechselt nicht sofort komplett um. Stattdessen läuft V4-Flash parallel für die teuren Massenanwendungen, während die Premium-Modelle für die kreativen oder analytisch anspruchsvollen Aufgaben bleiben. Das ist die pragmatische Antwort: V4 ergänzt, ersetzt aber selten vollständig.

Was du in den nächsten Wochen beobachten solltest

Drei Dinge.

V4 ist als Preview gelabelt. Das heißt, das Modell ist in den letzten Tagen veröffentlicht worden, aber Bugs, Quirks und Edge-Cases sind noch nicht ausführlich dokumentiert. Wer V4 produktiv einsetzen will, sollte zwei bis vier Wochen Erfahrungen sammeln, bevor das ganze Geschäft umgestellt wird.

Die Antwort der westlichen Anbieter steht aus. OpenAI, Anthropic und Google werden in den kommenden Wochen reagieren. Wahrscheinlich mit kleineren Varianten ihrer aktuellen Modelle zu ähnlichen Preisen. Das heißt: Wer heute ein Mehrjahres-Vertragsmodell mit einem dieser Anbieter abschließt, sollte über Ausstiegs- und Wechselklauseln nachdenken.

Die Compliance-Frage zu chinesischer KI ist politisch nicht abgeschlossen. Die EU diskutiert seit Monaten, ob und wie nicht-westliche Frontier-Modelle in kritischen Bereichen reguliert werden sollten. Für unkritische KMU-Anwendungen ist das heute kein Problem. Für Behörden, kritische Infrastruktur oder bestimmte regulierte Branchen kann sich das in den nächsten 12 Monaten ändern.

FAQ

Ist DeepSeek V4 wirklich kostenlos?

Das Modell selbst ist kostenlos und steht unter MIT-Lizenz auf Hugging Face zum Download. Die Nutzung über die offizielle API kostet 3,48 USD pro 1 Mio Output-Tokens für V4-Pro und 0,28 USD pro 1 Mio Output-Tokens für V4-Flash. Wer das Modell selbst hostet, zahlt nur die eigenen Server- und Stromkosten.

Kann ich DeepSeek V4 mit Mandanten- oder Kundendaten füttern?

Über die offizielle API in China: nicht ohne Risiko. Es gibt keinen DSGVO-konformen Auftragsverarbeitungsvertrag, und die Daten werden in China verarbeitet. Empfohlen für sensible Daten ist Selbsthosting (Hugging Face Download, eigener Server) oder ein europäischer Inference-Anbieter, der V4 in EU-Rechenzentren bereitstellt.

Wie schneidet V4 gegenüber Claude Opus 4.7 oder GPT-5.4 ab?

Bei vielen Standard-Benchmarks liegt V4-Pro auf einem ähnlichen Niveau wie GPT-5.2 und Gemini 3.0 Pro. Bei den Spitzenmodellen (GPT-5.4 Thinking, Claude Opus 4.7, Gemini 3.1 Pro) hat V4 in Reasoning-Tests laut unabhängigen Vergleichen leichte Schwächen. Für Coding und lange Dokumente ist V4-Pro sehr stark. Für komplexe juristische oder wissenschaftliche Analysen sind die Premium-Modelle weiter führend.

Lohnt sich der Wechsel von ChatGPT Pro auf DeepSeek V4?

Für Endanwender, die das Web-Interface nutzen: nein, jedenfalls nicht sofort. Für Entwicklungs- und API-getriebene Anwendungen: oft ja, jedenfalls für die Massenanwendungen. Eine sinnvolle Strategie ist, beide parallel zu betreiben und V4 für die hochvolumigen Anwendungen einzusetzen.

Kann ich V4-Flash auf einem normalen Server laufen lassen?

Ja, mit Einschränkungen. V4-Flash hat in voller Genauigkeit 160 GB. Mit 4-Bit-Quantisierung passt es auf einen Server mit 2x H100 (80 GB) oder einen sehr gut ausgestatteten Mac Studio M3 Ultra mit 192 GB Unified Memory. Für eine produktive Auslastung mit mehreren parallelen Anfragen brauchst du mehr Hardware. V4-Pro mit 865 GB ist deutlich aufwendiger.


Zuletzt geprüft am 25.04.2026. Quellen: Simon Willison Weblog, Fortune, TechCrunch, CNBC, Hugging Face Model Cards. Stand der Preise: April 2026, Angaben ohne Gewähr.

Über den Autor

Dr. Jens Aichinger ist promovierter Wirtschaftspädagoge und Gründer von SkillSprinters. Er hat in den letzten 24 Monaten KI-Tools von ChatGPT über Claude bis zu lokalen Open-Source-Modellen produktiv eingesetzt und schult Teilnehmer im Kurs zum Digitalisierungsmanager im praktischen Einsatz von Sprachmodellen.

Bereit für den nächsten Schritt?

Wenn du KI-Modelle wie DeepSeek V4 oder Claude Opus systematisch in dein Unternehmen integrieren willst, schau dir den Kurs zum Digitalisierungsmanager an. Vier Monate, online, mit Bildungsgutschein 0 Euro Eigenanteil. Kostenlos reinschnuppern? Der 5-Tage-Schnupperkurs zeigt dir die Praxis. Tieferer Vergleich: Claude vs ChatGPT vs Gemma, ChatGPT Go vs Plus vs Pro. Mehr Förderwege: ki-weiterbildung-kostenlos.de.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp