Auf einen Blick: Google hat bei der I/O am 19. Mai 2026 das neue Veo-Upgrade und Gemini Omni vorgestellt. Für KMU-Marketing heißt das konkret: kurze Clips zwischen vier und acht Sekunden lassen sich in akzeptabler Qualität direkt aus dem Chat-Fenster produzieren, lange Szenen mit konsistenten Personen bleiben schwierig. Wer heute schon experimentiert, kann seine Social-Media-Output-Frequenz im zweiten Halbjahr verdoppeln.
Das eigentlich Interessante an Google I/O 2026 stand nicht in den Schlagzeilen. Während Tech-Medien über Gemini 3.5 Pro und Antigravity diskutiert haben, hat Google im Hintergrund das Veo-Modell überarbeitet und mit Gemini Omni eine neue unified Pipeline für Text, Bild und Video vorgestellt. Für Marketing-Verantwortliche in mittelständischen Unternehmen ist das die relevantere Nachricht. Veo war bis vor wenigen Wochen ein Spielzeug. Mit dem Upgrade vom 19. Mai ist es zum ersten Mal ein Werkzeug, mit dem ein 30-Personen-Unternehmen seine Social-Media-Frequenz spürbar erhöhen kann, ohne externe Produktion hinzuzukaufen.
Wir schauen uns das nüchtern an. Was funktioniert, was nicht, und ab wann sich der Einstieg lohnt.
Was Gemini Omni anders macht
Bisher waren Text-, Bild- und Videogenerierung getrennte Modelle. Wer ein Marketing-Asset bauen wollte, brauchte mehrere Schritte: Briefing in ChatGPT, Bild in Midjourney oder Flux, Animation in einem Video-Modell, Audio separat, Schnitt im Editor. Vier bis fünf Tool-Wechsel pro Asset waren normal.
Gemini Omni soll diese Trennung aufheben. Ein Modell, eine Pipeline, ein Prompt. Du beschreibst, was du brauchst, und das Modell hält Stil, Charaktere und Audio konsistent. So lautet die Behauptung. In der Demo sah das beeindruckend aus.
In der Praxis ist die Antwort komplizierter. Unified Pipelines haben einen Schwachpunkt, den man in Demos selten sieht: Wenn ein Schritt scheitert, scheitert die ganze Kette. Wenn die Bildgenerierung in Schritt zwei einen Charakter falsch interpretiert, schleppt sich der Fehler durch das Video, durch das Audio, durch alles. Bei getrennten Tools kannst du den Bruch reparieren. Bei einer unified Pipeline musst du neu starten.
Trotzdem ist der Ansatz richtig. Die Konsistenz zwischen Briefing und finalem Asset ist genau das Problem, an dem KMU-Marketing-Teams scheitern. Wer ein Briefing schreibt, dann einen externen Designer beauftragt, dann einen Videoproducer dazuholt, verliert in jedem Schritt 20 Prozent vom Original-Intent. Omni kann das auf 5 bis 10 Prozent drücken, wenn es richtig läuft.
Das Veo-Upgrade im Detail
Das Veo-Upgrade ist der greifbare Teil der Ankündigung. Google nennt es nicht offiziell Veo 4, hat aber mehrere konkrete Verbesserungen genannt:
- Verbesserte temporale Konsistenz über die Clip-Länge
- Synchronisiertes Audio mit Dialog-Support
- Präzisere Kamerasteuerung (Schwenks, Zooms, statische Einstellungen)
- Templates für wiederkehrende Formate (Produkt-Bumper, Talking-Head, Reel-Strukturen)
- In-Chat-Editing ohne separates Tool
Der frühe Vergleich gegen Veo 3.1 zeigt laut Google deutlich besseres Prompt-Adherence. Was das in der Realität bedeutet: Du beschreibst eine Szene, und das Ergebnis kommt deinem Briefing näher. Bisher musstest du oft drei bis fünf Iterationen einplanen, bis ein Clip nutzbar war. Mit dem Upgrade soll das auf eine bis zwei Iterationen sinken.
Synchronisiertes Audio mit Dialog-Support ist das Feature, das Marketing-Teams am stärksten unterschätzen. Bisher waren Veo-Clips entweder stumm oder mit generischer Hintergrundmusik unterlegt. Jetzt kann ein Charakter im Video tatsächlich etwas sagen, und die Lippenbewegung passt halbwegs. Halbwegs heißt: für vier bis sechs Sekunden glaubwürdig, danach driftet es ab.
Wo Video-KI im Mai 2026 schon funktioniert
Ehrlich werden. Was geht heute, was nicht.
Kurze Clips zwischen vier und acht Sekunden sind das robusteste Anwendungsfeld. Produkt-Hero-Shots, Stimmungs-Bumper, Reel-Intros, LinkedIn-Snippets. Hier liefert Veo Mai 2026 zuverlässig brauchbare Ergebnisse, sofern das Briefing präzise ist. Die Erfolgsquote liegt nach unserer Beobachtung bei sieben bis acht von zehn generierten Clips.
Mittlere Clips zwischen acht und fünfzehn Sekunden funktionieren, wenn keine Personen im Bild sind oder Personen nur kurz auftreten. Abstrakte Produktvisualisierungen, Daten-Animationen, Landschafts-Shots. Sobald ein Mensch über mehrere Sekunden sichtbar ist und sprechen soll, wird es kritisch.
Was weiter schwierig bleibt, ist die Königsdisziplin: ein 30-Sekunden-Spot mit zwei oder drei Personen, klarer Storyline, mehreren Schnitten und Lippensynchronizität über die ganze Länge. Das wird im Mai 2026 nicht in akzeptabler Qualität produziert. Wer einen TV-Spot oder ein Headline-Branded-Content-Stück braucht, geht weiter zu professioneller Produktion.
Wettbewerb im Mai 2026
Veo ist nicht allein. Sora 2 von OpenAI hat seine Stärken in der visuellen Qualität, vor allem bei photorealistischen Szenen. Anthropic hat bei Claude noch keine Video-Generation, fokussiert sich weiter auf Text und Code.
| Anbieter | Modell | Stärke Mai 2026 | Schwäche |
|---|---|---|---|
| Veo (Upgrade I/O 2026) | Audio-Sync, Templates, In-Chat-Editing | Photorealismus bei komplexen Szenen | |
| OpenAI | Sora 2 | Photorealismus, lange Clips bis 60 Sek | Audio noch nicht integriert, Templates schwächer |
| Anthropic | Claude | Keine Video-Generation | Setzt auf Text und Code, kein Video-Roadmap-Ziel kommuniziert |
Praktisch heißt das: Wer schon ein Gemini- oder Google-Workspace-Abo hat, nutzt Veo. Wer ChatGPT Pro hat, nutzt Sora 2. Wer Claude nutzt, kombiniert Claude für Briefings und Skripte mit einem der beiden Video-Tools. Ein technischer Wechsel ist Mai 2026 nicht zwingend.
Praxis-Beispiel: 20 statt 4 Social-Ads pro Monat
Die Klein Möbelhandel GmbH in Coburg hat 28 Mitarbeiter und eine Marketing-Verantwortliche in Teilzeit. Bisheriger Output: vier Social-Ads pro Monat, jeweils mit externer Videoagentur zu 600 bis 900 Euro pro Clip. Jahresbudget für Bewegtbild: rund 38.000 Euro.
Seit März 2026 nutzt die Marketing-Verantwortliche Veo intensiv. Sie produziert pro Monat 18 bis 22 kurze Clips, jeweils sechs bis acht Sekunden, für Instagram-Reels, LinkedIn und TikTok-Ads. Format: Produkt im Wohnraum, schneller Schnitt, Hook, Preis. Die externe Agentur bekommt jetzt nur noch das Quartals-Highlight-Stück (langer Spot, echte Kunden, echtes Studio).
Ihr realistisches Erfolgsverhältnis liegt bei zwei zu zehn. Sie generiert zehn Clip-Varianten pro Idee, zwei davon sind veröffentlichungsreif. Die anderen acht werden verworfen oder als interne Tests genutzt. Der Tokenpreis liegt bei rund 80 bis 120 Euro pro Monat für das gesamte Video-Output-Pensum. Das ist eine Reduktion von 38.000 auf etwa 12.000 Euro Jahresbudget für Bewegtbild, plus drei zusätzliche Stunden pro Woche, die sie in Texten und Strategie investiert.
Was hat sie gelernt? Nicht jede Idee funktioniert in Veo. Produkte in klassischen Settings (Küche, Wohnzimmer) klappen gut, Produkte in Outdoor-Szenen mit wechselndem Licht weniger. Hände sind weiterhin ein Problem, deshalb vermeidet sie Nahaufnahmen mit Handinteraktion. Und sie hat aufgehört, ihre eigenen Mitarbeiter in den Clips zu zeigen, weil die KI-Versionen nicht überzeugend ähnlich aussehen.
Wo Video-KI scheitert
Es gibt zwei Klassen von Fehlern, die jeder einplanen muss, der heute mit Veo arbeitet.
Der erste ist visuell offensichtlich. Hände, Schriftzüge, Gesichter über fünf Sekunden, komplexe Bewegungsabläufe. Wer ein Video produziert, in dem jemand einen Brief schreibt oder ein Wort an die Tafel schreibt, bekommt eine Halluzinations-Soup zurück. Das ist nicht überraschend, aber für Marketing-Anfänger schmerzhaft.
Der zweite ist subtiler und gefährlicher. KI-generierte Inhalte müssen nach Art. 50 KI-VO transparent gekennzeichnet werden, wenn es sich um synthetische oder manipulierte Inhalte handelt, die echten Personen oder Ereignissen täuschend ähnlich sehen. Wer ein Produktvideo mit KI-generiertem fiktivem Sprecher macht und das nicht kennzeichnet, riskiert ab 2. August 2026 Bussgelder. Die Pflicht greift nicht bei klar erkennbarer Animation oder offensichtlich künstlerischer Darstellung, aber sie greift bei photorealistischen Inhalten, die einen echten Eindruck erwecken.
Konkret bedeutet das: Wer mit Veo Marketing-Content für deutsche Märkte produziert, baut sich am besten von Anfang an einen Workflow mit Kennzeichnungs-Standard. Ein dezenter Hinweis im Bild oder in der Caption ("KI-generiert" oder "AI-generated") reicht in der Regel. Wer das systematisch von Anfang an mitdenkt, hat später keine Compliance-Lücken zu schließen.
Meine Einschätzung zur Adoption
Aus den Beratungsmandaten, die wir laufen haben, sehen wir ein klares Muster: 50 Prozent der KMU-Marketing-Teams sollten heute schon mit Veo experimentieren. Der Rest sollte sich sechs Monate Zeit lassen.
Wer heute experimentieren sollte: Marketing-Teams mit aktiver Social-Media-Strategie, hoher Output-Frequenz und einem technisch aufgeschlossenen Verantwortlichen. Wer LinkedIn, Instagram und TikTok regelmäßig bespielt und pro Monat mehr als acht Posts produziert, hat einen sofortigen Hebel. Vier bis acht Stunden Einarbeitung, dann ist der Workflow stabil. Die ersten zwei bis drei Wochen sind Lernen, danach beschleunigt sich die Produktion.
Wer warten sollte: Marketing-Teams mit Fokus auf Branded Content, klassischer Mediaplanung, hochwertigen TV-Spots oder Industrial-B2B-Kommunikation, die stark auf reale Personen, reale Maschinen und reale Standorte angewiesen ist. Hier liefert Veo noch nicht. Die Photorealismus-Lücke ist zu gross, und der Brand-Schaden bei einem schlechten KI-Clip ist höher als der Effizienzgewinn. In sechs Monaten sieht das anders aus, weil sich die Modelle in diesem Tempo weiterentwickeln. Aber heute lohnt die Vorsicht.
Was wir bei Beratungsmandaten regelmäßig sehen: Marketing-Verantwortliche unterschätzen, wie viel handwerkliche Praxis sie sich aneignen müssen. Veo ist kein Tool, in dem man einen Prompt eingibt und ein fertiges Video bekommt. Es ist ein Tool, in dem man zehn Prompts eingibt, sieben davon verwirft, drei zusammenschneidet und am Ende ein nutzbares Asset hat. Wer denkt, das spart Zeit, weil "die KI das macht", wird enttäuscht. Wer denkt, das senkt die Stückkosten für Bewegtbild dramatisch, hat recht.
Was du als Nächstes tun kannst
Wenn dich das Thema interessiert, fang klein an. Such dir einen wiederkehrenden Content-Typ aus deinem aktuellen Marketing, der dich pro Monat zwei bis vier Mal kostet. Ein Produkt-Reel, ein LinkedIn-Snippet, ein Instagram-Story-Bumper. Produziere die nächste Iteration zusätzlich mit Veo, parallel zur normalen Produktion. Vergleiche das Ergebnis ehrlich. Wenn der Veo-Output zu 60 bis 70 Prozent so gut ist wie die externe Produktion, lohnt der Wechsel. Wenn er bei 30 bis 40 Prozent liegt, ist die Zeit noch nicht reif.
Wer KI im Marketing-Stack systematisch verankern will, sollte sich darüber hinaus mit Prompt-Engineering, Agent-Workflows und Compliance vertraut machen. Das ist exakt der Schwerpunkt, den wir im Digitalisierungsmanager ab dem ersten Modul aufbauen. Wer einen ersten Eindruck haben will, ohne sich gleich auf 16 Wochen einzulassen, schaut sich die fünf Lektionen vom Schnupperkurs an.
Häufige Fragen
Brauche ich Adobe Premiere, um Veo-Clips weiterzuverarbeiten?
Nein. In den meisten Fällen reicht das In-Chat-Editing von Gemini selbst, plus ein einfacher Schnitt-Tool wie CapCut oder DaVinci Resolve für die Endkomposition. Wer professionelle Farb-Korrektur oder mehrspurigen Audio-Schnitt braucht, kommt nicht um Premiere oder Final Cut herum, aber für 80 Prozent der KMU-Marketing-Anwendungen reichen kostenlose oder günstige Tools.
Was kostet Veo im Mai 2026?
Veo ist in Gemini Advanced enthalten (rund 22 Euro pro Monat). Höhere Generierungs-Volumen brauchen ein API-Konto über Google AI Studio, dort wird pro Sekunde generiertes Video abgerechnet. Realistisches Budget für ein KMU-Marketing-Team mit 20 Clips pro Monat liegt zwischen 80 und 150 Euro. Wer Sora 2 zusätzlich nutzt, kommt auf 150 bis 250 Euro pro Monat für die Tool-Suite.
Muss ich KI-generierte Videos kennzeichnen?
Nach Art. 50 KI-VO ja, wenn die Inhalte echten Personen oder Ereignissen täuschend ähnlich sehen und ohne Hinweis als echt verstanden werden könnten. Bei klar künstlerischen oder offensichtlich animierten Videos greift die Pflicht nicht. In der Praxis lohnt sich ein dezenter Hinweis in der Caption oder im Bild, weil das bei photorealistischen Inhalten meist die Compliance-konformste Lösung ist. Die Bussgeld-Vorschriften treten am 2. August 2026 in Kraft.
Kann ich konsistente Personen über mehrere Clips erzeugen?
Ja, aber mit Einschränkungen. Veo unterstützt Charakter-Referenzen, mit denen du eine Person in mehreren Clips wiedererkennbar darstellen kannst. Die Konsistenz funktioniert über kurze Clips gut, bei langen oder mehrstufigen Szenen mit Bewegung und Dialog driftet die Darstellung. Für Markenfiguren oder fiktive Sprecher ist das nutzbar. Für echte Mitarbeiter, die in Veo wiedererkennbar nachgebaut werden sollen, liefert Mai 2026 noch keine überzeugende Qualität.
Zuletzt geprüft am 20. Mai 2026.
Bereit für den nächsten Schritt? Wenn du KI im Geschäftsalltag systematisch einsetzen willst, schau dir unseren kostenlosen KI-Schnupperkurs an. Fünf Lektionen, eine Live-Demo pro Woche, null Euro.
Über den Autor
Dr. Jens Aichinger ist promovierter Wirtschaftspädagoge, Erwachsenenbildner und Geschäftsführer von SkillSprinters by Dr. Aichinger. Er bildet seit über 15 Jahren Berufstätige, Fachkräfte und Quereinsteiger weiter, hat über 70 Fachbücher zu Prüfungsvorbereitung und Karrierethemen veröffentlicht und betreibt mit SkillSprinters einen der digital am stärksten wachsenden Bildungsträger im DACH-Raum.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.