Auf einen Blick: V4 Pro und V4 Flash sind am 24. April 2026 gemeinsam erschienen, beide MIT-lizenziert, beide mit 1 Million Token Kontext. Pro hat 1,6 Billionen Parameter, Flash 284 Milliarden. Flash ist über die API rund 12x günstiger. Für Routine-Massenarbeit reicht Flash, für komplexe Wissensabfragen und Agenten gewinnt Pro klar.
DeepSeek hat im April 2026 ein ungewöhnliches Doppelpack veröffentlicht: V4 Pro und V4 Flash am selben Tag, beide unter MIT-Lizenz, beide self-hostbar. Die Versuchung ist groß, einfach "das größere ist besser" anzuwenden und auf V4 Pro zu setzen. Bei den Preisen lohnt sich die Frage aber: Wann reicht Flash tatsächlich, wo musst du zu Pro greifen?
Wir setzen beide Modelle seit dem Release in Mandanten-Setups parallel ein und haben ein klares Bild, welcher Use-Case zu welchem Modell gehört. Diese Aufteilung spart bei einem mittelständischen KI-Einsatz schnell 70 bis 80 Prozent der API-Kosten.
Was Pro und Flash technisch unterscheidet (Stand 24. April 2026)
V4 Pro ist ein 1,6 Billionen Parameter großes Mixture-of-Experts-Modell, von dem pro Anfrage 49 Milliarden Parameter aktiv sind. V4 Flash hat 284 Milliarden Parameter mit 13 Milliarden aktiven. Beide nutzen 1 Million Token Kontextfenster, das ist genug für rund 750.000 Wörter englischen Text oder ungefähr ein mittelgroßes Buch.
Die Architektur ist bei beiden gleich, der Unterschied liegt in der Modellgröße und damit dem zugrunde liegenden Weltwissen. Pro hat mehr Trainingsparameter und damit mehr abrufbares Faktenwissen, mehr Sprachnuancen, mehr Coding-Patterns. Flash ist die effiziente Variante: schlanker, schneller, günstiger, mit weniger Wissens-Tiefe.
Beide Modelle sind auf Hugging Face verfügbar (DeepSeek-V4 und DeepSeek-V4-Flash). Die MIT-Lizenz erlaubt kommerziellen Einsatz, eigenes Hosting, Fine-Tuning, alles. Das ist der Grund, warum DeepSeek-Modelle in KMU mit DSGVO-Pflichten so beliebt sind: Du kannst sie auf eigener Hardware betreiben, ohne dass Daten in fremde Clouds wandern.
Die Preisstruktur und die 75-Prozent-Promo
V4 Pro kostet über die DeepSeek-API 1,74 USD pro Million Input-Token und 3,48 USD pro Million Output-Token. V4 Flash liegt bei 0,14 USD Input und 0,28 USD Output. Das ist ein Faktor von rund 12 zugunsten von Flash.
Bis zum 31. Mai 2026 läuft eine DeepSeek-Promo mit 75 Prozent Rabatt auf V4 Pro. Das senkt Pro effektiv auf 0,435 USD Input und 0,87 USD Output. Damit ist Pro während der Promo nur noch rund 3x teurer als Flash, nicht 12x. Wer Pro testen oder einsetzen will, sollte die Promo nutzen.
Ein typisches KMU-Anwendungsbeispiel zur Einordnung. Eine Buchhaltungsabteilung verarbeitet 5.000 Rechnungen pro Monat, jede Rechnung hat im Schnitt 800 Token Input und braucht 200 Token Output. Mit Flash kostet das pro Monat rund 0,84 USD. Mit Pro außerhalb der Promo wären es rund 10,40 USD, mit Promo rund 2,60 USD. Bei diesen Volumen ist die Modellwahl mehr Frage der Genauigkeit als des Preises.
Spannender wird es bei großen Pipelines. Wer monatlich 10 Millionen Token Input und 2 Millionen Token Output verarbeitet (typische Größenordnung für automatisierte Content-Klassifikation oder Support-Triage), zahlt mit Flash 1,96 USD, mit Pro außerhalb Promo 23,36 USD. Bei dieser Skalierung wird die Modellwahl zur Budget-Entscheidung.
Wo Pro klar gewinnt
Drei Bereiche, in denen Pro nach unseren Tests messbar besser ist als Flash.
Weltwissen und Faktenabruf. Im SimpleQA-Verified-Benchmark erreicht Pro 57,9 Prozent korrekte Antworten, Flash 34,1 Prozent. Das ist ein riesiger Unterschied. Wenn du DeepSeek als Recherche-Assistenten nutzt, der ohne Internet-Suche Faktenfragen beantworten soll (historische Daten, technische Spezifikationen, geografische Informationen), ist Pro deutlich verlässlicher. Flash halluziniert hier häufiger.
Agentische Komplexität. Im Terminal-Bench 2.0 (ein Benchmark für komplexe Mehrschritt-Agenten-Aufgaben im Terminal) liefert Pro 67,9 Prozent erfolgreiche Tasks, Flash 56,9 Prozent. Wer DeepSeek als Coding-Agenten oder DevOps-Agenten einsetzt, sieht den Unterschied bei längeren Aktionsketten. Flash bricht öfter ab oder verirrt sich in Subtasks.
Code-Refactoring und komplexe Programmierung. Bei mehrstufigen Code-Reviews, bei denen das Modell die Architektur verstehen, Abhängigkeiten erfassen und konsistente Vorschläge über mehrere Dateien hinweg machen muss, zeigt Pro deutlich kleinere Fehlerraten. Flash ist gut für einzelne Funktionen, Pro für Architektur-Entscheidungen.
Wo Flash überraschend stark ist
Es wäre eine Verkürzung zu sagen "Pro ist immer besser, Flash ist die Sparvariante". Bei DeepSeek gibt es zusätzlich einen Modus namens V4 Flash-Max, in dem Flash mit deutlich erhöhtem Reasoning-Budget arbeitet. Im Reasoning-orientierten Benchmarks erreicht Flash-Max Performance, die Pro nahe kommt.
Praxis-Übersetzung: Wer DeepSeek Flash mit Chain-of-Thought, mehr Reasoning-Schritten und größeren Token-Budgets pro Antwort einsetzt, holt aus dem kleineren Modell mehr heraus. Das macht Flash zur attraktiven Option für Routine-Aufgaben, die sauberes Schlussfolgern brauchen, aber nicht großes Weltwissen.
Konkrete Beispiele: Vertragsanalyse mit definierter Checkliste (Flash macht das gut, weil die Logik strukturiert ist). Triage von Support-Tickets nach Dringlichkeit und Kategorie (Flash reicht, weil die Aufgabe schmal ist). Übersetzung zwischen Deutsch, Englisch, Französisch in Business-Sprache (Flash ist solide, Pro nicht erkennbar besser).
Bei reinem Wissensabruf ohne Internet-Zugriff fällt Flash dagegen ab. Wer "Wann wurde die Gewerbesteuerumlage abgeschafft?" fragt, bekommt von Pro die richtige Antwort (1993, mit Wiedereinführung in modifizierter Form), von Flash öfter eine plausible aber falsche Erfindung.
Praxisbeispiel: Industriedienstleister mit 35 Mitarbeitern
Ein Sondermaschinenbauer in Hof, 35 Mitarbeiter, hat im März 2026 ein internes KI-System eingeführt. Use-Cases: technische Dokumentationen aus CAD-Spezifikationen generieren, eingehende Kundenanfragen klassifizieren und an Vertrieb oder Service routen, Reklamations-Triage, Lieferantenkommunikation.
Wir haben das Setup mit DeepSeek-Modellen aufgebaut, weil die DSGVO-Lage es erforderte (Kundenakten dürfen nicht in die USA wandern). Self-Hosting auf einem dedizierten Server in München, beide Modelle parallel installiert.
Aufteilung nach Aufgabe:
- Klassifikation eingehender Anfragen (15.000 pro Monat): V4 Flash. Schnell, billig, Genauigkeit über 92 Prozent.
- Reklamations-Triage mit Kategorien-Auswahl: V4 Flash. Strukturierte Aufgabe, klare Vorgaben.
- Technische Doku-Generierung mit Bezug auf historische CAD-Daten: V4 Pro. Komplexes Wissen, mehrstufiges Reasoning, Konsistenz über lange Texte.
- Lieferantenkommunikation in drei Sprachen: V4 Flash für Standardfälle, V4 Pro für sensible Verhandlungs-Drafts.
- Wöchentliche Branchen-Trend-Analyse mit Web-Search: V4 Pro mit angeschlossener Suche.
Kostenverteilung pro Monat: rund 70 Prozent des Volumens läuft über Flash, 30 Prozent über Pro. Hätten sie alles über Pro laufen lassen, wären die Inference-Kosten rund 4x höher gewesen. Hätten sie alles über Flash laufen lassen, wäre die Qualität bei der Doku-Generierung nicht ausreichend gewesen.
Die Lektion ist nicht "Flash oder Pro", sondern "Flash für Routine, Pro für Wissen und Komplexität". Beide gleichzeitig zu betreiben kostet operativ kaum mehr, weil das Switching im Backend automatisch passieren kann.
Wann lohnt sich Self-Hosting wirklich?
Beide Modelle sind MIT-lizenziert und damit self-hostbar. Aber das heißt nicht, dass es für jeden sinnvoll ist.
V4 Flash läuft auf vernünftiger Hardware: ein Server mit 2x NVIDIA H100 (etwa 80.000 EUR Hardware) oder gemietete GPU-Instanzen ab ca. 4 USD pro Stunde. Inference-Geschwindigkeit liegt bei 30-50 Token pro Sekunde, was für die meisten KMU-Szenarien reicht.
V4 Pro braucht deutlich mehr: 8x H100 oder vergleichbar, also Hardware ab 300.000 EUR oder gemietete Instanzen ab ca. 25 USD pro Stunde. Inference-Geschwindigkeit bei rund 20-30 Token pro Sekunde. Self-Hosting von Pro lohnt sich für KMU praktisch nur, wenn DSGVO-Anforderungen Cloud-API ausschließen und die Volumen entsprechend groß sind.
Die Kostenrechnung für Self-Hosting: Wer monatlich mehr als 200 Millionen Token Input verarbeitet, kommt mit eigener Pro-Instanz günstiger weg als über die DeepSeek-API. Darunter ist die API immer billiger.
Eine ausführliche Anleitung zum lokalen Betrieb von Flash haben wir separat aufgeschrieben, mit Hardware-Empfehlungen und Docker-Setup: DeepSeek V4 Flash lokal hosten.
Vergleichstabelle: V4 Pro vs. V4 Flash (Mai 2026)
| Kriterium | V4 Pro | V4 Flash |
|---|---|---|
| Parameter total | 1,6 Billionen | 284 Milliarden |
| Aktive Parameter | 49 Milliarden | 13 Milliarden |
| Kontextfenster | 1 Mio Token | 1 Mio Token |
| API Input/Output (USD/Mio Token) | 1,74 / 3,48 | 0,14 / 0,28 |
| API mit 75% Promo bis 31.05. | 0,435 / 0,87 | nicht promobasiert |
| Lizenz | MIT | MIT |
| Self-Hosting (Hardware) | ab 300k EUR oder 25 USD/h | ab 80k EUR oder 4 USD/h |
| SimpleQA-Verified | 57,9 Prozent | 34,1 Prozent |
| Terminal-Bench 2.0 | 67,9 Prozent | 56,9 Prozent |
| Stärke | Wissen, Komplexität, Agenten | Geschwindigkeit, Massenarbeit, Routine |
Die Zahlen sind direkt von DeepSeek beim Release am 24. April 2026 veröffentlicht worden. Bei eigenen Benchmarks in deutschen Geschäftskontexten haben wir die Größenordnungen bestätigt.
Welches Modell für welchen Use-Case (Praxis-Empfehlung)
Klassifikation, Tagging, Sortierung, Triage. Eingehende E-Mails kategorisieren, Tickets nach Dringlichkeit sortieren, Bewerbungen vorab nach Fit ranken. Hier reicht Flash zuverlässig.
Übersetzungen in Business-Sprache. Standardgeschäftliche Texte zwischen Deutsch, Englisch, Französisch, Spanisch. Flash ist gut, Pro ist nicht erkennbar besser.
Routine-Textgenerierung. Standardisierte E-Mail-Antworten, FAQ-Bot-Antworten, Status-Updates. Flash.
Zusammenfassungen kürzerer Dokumente. Bis ca. 30 Seiten Eingabetext mit klarer Struktur (Meeting-Protokolle, Vertragstexte). Flash.
Komplexe Recherche und Wissensfragen ohne Web-Zugriff. Fachliche Beratung, historische Daten, technische Spezifikationen. Pro klar.
Code-Refactoring größerer Codebasen. Pro.
Multi-Step-Agenten mit komplexer Logik (mehrere Tools, Entscheidungsbäume, Verifikation). Pro.
Schreibtätigkeit auf gehobenem Niveau (Marketingtexte, Pressemitteilungen, anspruchsvolle Korrespondenz). Beide testen. In den meisten Fällen liefert Pro spürbar bessere Ergebnisse, aber bei reiner Standardkommunikation reicht Flash.
Anspruchsvolle juristische Argumentation, präzise Vertragsanalyse mit Implikations-Verständnis. Pro, und im Zweifel zusätzlich ein US-Anbieter wie Claude Sonnet 4.6 zum Cross-Check.
Wer das unterschätzt
Ein typischer Fehler bei DeepSeek-Einführung im KMU: Man entscheidet sich aufgrund der Spitzen-Benchmarks für Pro und routet alles dort durch. Das funktioniert, ist aber überteuert. Wer 80 Prozent seines Volumens durch Routine-Aufgaben fährt, zahlt für jede dieser Anfragen Pro-Preise, obwohl Flash genügt.
Umgekehrt sehen wir Setups, in denen aus Kostengründen alles über Flash läuft. Bei den 20 Prozent komplexen Aufgaben (Recherche, Doku-Generierung, Agenten) leiden dann die Ergebnisse, und niemand versteht, warum die KI "manchmal so daneben" ist. Die Antwort ist meistens: Sie nutzen das falsche Modell für die falsche Aufgabe.
Die saubere Lösung ist ein Router im Backend, der die Aufgabentyp-Erkennung trifft und die richtige Engine wählt. Das ist mit n8n, einem eigenen Python-Skript oder einem fertigen Wrapper in einem halben Tag eingerichtet. Wer das einmal sauber gebaut hat, zahlt auf Dauer 60 bis 80 Prozent weniger als wer pauschal Pro nutzt, ohne Qualität zu verlieren.
Eine zweite Sache, die viele übersehen: Die 75-Prozent-Promo läuft am 31. Mai 2026 aus. Wer jetzt Pro testet und die Pipeline darauf auslegt, sollte vor dem 1. Juni die Cost-Modellierung auf den vollen Preis umrechnen. Sonst gibt es im Juni eine unangenehme Überraschung auf der DeepSeek-Rechnung.
Was du diese Woche machen kannst
Setze beide Modelle parallel auf. DeepSeek API-Zugang ist in Minuten eingerichtet. Lass dieselben 50 typischen Anfragen aus deinem Geschäftsalltag durch beide Modelle laufen. Vergleiche die Outputs. Du wirst sehen, dass etwa 70 Prozent der Antworten bei Flash und Pro praktisch identisch sind. Bei den 30 Prozent, wo es Unterschiede gibt, siehst du die Pro-Stärke (Wissen, Nuance, Komplexität) deutlich.
Daraus baust du deine eigene Modell-Wahl-Logik. Bei jeder Aufgabe stellst du dir die Frage: Braucht das Weltwissen? Braucht das mehrstufiges Reasoning? Wenn beide Antworten nein sind, läuft die Aufgabe über Flash.
Wer KI im Unternehmen systematisch aufbauen will, statt jeden Use-Case einzeln zu basteln, findet bei uns einen strukturierten Einstieg über die Pillar-Page Digitalisierungsmanager. Vier Monate, gefördert über Bildungsgutschein, mit Hands-on-Praxis auch zu Modell-Routing und Self-Hosting.
Häufige Fragen
Lohnt sich V4 Pro während der 75-Prozent-Promo wirklich?
Ja, klar. Während der Promo kostet Pro nur das 3-fache von Flash statt das 12-fache. Wer auch nur 20 Prozent seines Volumens für komplexe Aufgaben braucht, ist mit Pro plus Promo besser dran als mit Flash. Wichtig: am 1. Juni läuft die Promo aus, dann sollte die Mix-Strategie greifen.
Kann ich DeepSeek-Modelle DSGVO-konform nutzen?
Über die DeepSeek-API werden Daten in China verarbeitet, das ist DSGVO-rechtlich nicht ohne. Für DSGVO-relevante Anwendungen ist Self-Hosting die saubere Lösung, weil die MIT-Lizenz das ausdrücklich erlaubt. Mit eigenem Server in der EU oder in Deutschland hast du volle Kontrolle und die DSGVO-Konformität ist Frage deiner internen Spielregeln, nicht des Anbieters.
Wie unterscheidet sich V4 Flash-Max von normalem V4 Flash?
Flash-Max ist kein anderes Modell, sondern derselbe Flash mit deutlich erhöhtem Reasoning-Budget pro Anfrage. Du gibst dem Modell mehr Token Zeit und mehr Chain-of-Thought-Spielraum. Das erhöht die Qualität bei komplexen Reasoning-Aufgaben spürbar, kostet aber pro Anfrage mehr Token. Praxis: Flash-Max nutzen, wenn Flash für eine bestimmte Aufgabe knapp nicht reicht, bevor du zu Pro wechselst.
Welches Modell sollte ich für ChatGPT-ähnliche Allzweck-Nutzung wählen?
Wenn DeepSeek dein Tool für allgemeine Office-Aufgaben werden soll (E-Mails, Recherchen, Schreibhilfe), würden wir Pro empfehlen, sofern die Promo läuft oder die Volumen niedrig sind. Pro bringt das breitere Weltwissen, das du im Alltag häufig brauchst, ohne dass du es vorher weißt. Flash ist für vordefinierte Aufgaben in Pipelines, nicht für offene Allzweck-Nutzung.
Über den Autor
Dr. Jens Aichinger ist promovierter Wirtschaftspädagoge und Inhaber von SkillSprinters, einem DEKRA-zertifizierten Bildungsträger. Er entwickelt seit 2024 KI-gestützte Weiterbildungs- und Prozessautomatisierungslösungen für den Mittelstand. Über Skill-Sprinters läuft auch der Digitalisierungsmanager, eine 4-monatige geförderte Weiterbildung.
Bereit für den nächsten Schritt? Wenn du KI im Unternehmen systematisch aufbauen willst und Modell-Routing nicht dem Zufall überlassen möchtest, schau dir unsere viermonatige Weiterbildung Digitalisierungsmanager an. Über Bildungsgutschein 0 Euro Eigenanteil.
Zuletzt geprüft am 23. Mai 2026
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.