Eine KI, die offline läuft, keine Cloud anruft, keine Daten an die USA schickt und nach dem Setup 0 Euro Strom im Monat kostet. Das klang bis Anfang 2026 nach Bastler-Spielzeug. Mit Gemma 4 und dem Raspberry Pi 5 ist es ein nutzbares Werkzeug für den Mittelstand geworden. Wir haben es in einer Kfz-Werkstatt, einer Lagerlogistik und einer Steuerkanzlei aufgebaut. Hier ist, was funktioniert und wo die Grenzen liegen.
Was Gemma 4 ist und warum Edge KI jetzt erst Sinn ergibt
Gemma 4 ist die vierte Generation der Open-Weights-Modelle von Google DeepMind, released am 2. April 2026 unter Apache-2.0-Lizenz. Das heisst: Du darfst die Gewichte kommerziell nutzen, lokal hosten, modifizieren, weiterverteilen. Kein Anbietervertrag, kein Subscription-Token, kein "Modell wird abgeschaltet"-Risiko.
Wirklich spannend sind die Edge-Varianten. Gemma 4 E2B hat 2,3 Milliarden Parameter effective und läuft auf einem Raspberry Pi 5 mit rund 7,6 Tokens pro Sekunde. Das ist kein Spitzenwert, aber genug für kurze Antworten in einer Werkstatt oder am Lagerregal. Gemma 4 E4B mit 4 Milliarden Parametern effective ist etwas langsamer, aber präziser. Beide unterstützen 140 Sprachen, Multi-Step Planning, Autonomous Action und Offline Code Generation.
Hardware-Partner sind Raspberry Pi 5 und Qualcomm Dragonwing IQ8 (verbaut im Arduino VENTUNO Q). Beide Plattformen kommen aus dem Industrie-Embedded-Bereich, das macht den Unterschied zu reinen Hobby-Projekten.
Die Hardware-Rechnung für unter 200 Euro
Ein vollständiges System sieht so aus:
| Komponente | Preis (ca.) |
|---|---|
| Raspberry Pi 5, 8 GB Variante | 90 EUR |
| Original-Netzteil 27 W USB-C | 15 EUR |
| microSD-Karte 256 GB (Class A2) | 25 EUR |
| Aktivkühler oder Gehäuse mit Lüfter | 20 EUR |
| Optional: Bluetooth-Mikro für Spracheingabe | 25 EUR |
| Summe (ohne Mikro) | 150 EUR |
| Summe (mit Mikro) | 175 EUR |
Was du sonst noch brauchst: ein Netzwerkkabel oder WLAN (nur für Setup, danach optional), einen Bildschirm oder SSH-Zugang vom eigenen Rechner.
Laufende Stromkosten: Der Pi 5 zieht unter Last rund 7 Watt. Bei 24/7-Betrieb sind das etwa 1,80 Euro Strom pro Monat. Bei Arbeitszeit-Betrieb (8 Stunden pro Werktag) eher 60 Cent.
Setup-Software: LiteRT-LM CLI von Google, kostenlos, läuft auf Linux, macOS und direkt auf dem Pi. Die Gemma-4-Gewichte ziehst du dir aus dem Hugging-Face-Hub. Setup-Dauer realistisch: ein halber Tag für den ersten Pi, danach replizierst du das Image in 20 Minuten pro weiterem Gerät.
Drei Anwendungsfälle, die wir in Bayreuth und Umgebung gesehen haben
Die Theorie ist immer schön. Wir nennen lieber, wo das System echten Wert liefert.
Werkstatt-FAQ-Bot in der Kfz-Werkstatt
Werkstatt Schmidt in Bayreuth, vier Hebebühnen, drei Mechaniker. Der Service-Berater hatte das Problem, dass er bei jedem ungewohnten Modell erst im Hersteller-Portal nachschlagen musste. Audi-Serviceintervalle, BMW-Inspektionsumfänge, VW-Bremsflüssigkeitswechsel je nach Baujahr.
Wir haben Gemma 4 E2B auf einem Pi 5 aufgesetzt und ihm rund 80 Seiten Werkstatt-Handbücher als Wissensbasis gegeben (Retrieval-Augmented Generation, kurz RAG). Der Berater fragt jetzt: "Welche Wartung steht bei einem Audi A4 8K nach 60.000 Kilometern an?" Antwort kommt in 6 bis 8 Sekunden, vollständig offline.
Einrichtung: 1 Tag inklusive Aufnahme der Handbücher. Laufende Kosten: 60 Cent Strom im Monat. Vorher: rund 20 Minuten pro Tag Suche im Hersteller-Portal. Nachher: 2 Minuten. Bei 200 Arbeitstagen sind das 60 Stunden pro Jahr.
Lagerlogistik-Helfer im Mittelstand
Ein Holzgrosshandel in der Oberpfalz hat rund 12.000 Artikel im Lager. Bisher: Inventarliste als Excel auf einem Tablet, Suche per Tippen. Störsuchen-Eingabe ist im Stahlbau-Lager schwer, weil die Mitarbeiter Handschuhe tragen.
Wir haben einen Pi 5 mit Bluetooth-Mikro und Knochenschall-Kopfhörer ins Lager gestellt. Der Mitarbeiter sagt: "Wo liegt die Eichendielenleiste fünfundzwanzig auf vierzig?" Gemma 4 verarbeitet die Spracheingabe, sucht in der Artikelliste und antwortet im Ohr: "Regal C-7, Fach 3, 14 Stück verfügbar." Die Inventarliste liegt als CSV auf der microSD, wird nachts vom Warenwirtschafts-System aktualisiert.
Die Trefferquote ist nicht perfekt. Bei seltenen Artikeln muss der Mitarbeiter manchmal nachfragen oder präziser formulieren. Bei den 500 meistgenutzten Artikeln liegt die Quote über 95 Prozent. Das reicht für den Alltag.
Dokumenten-Triage in der Steuerkanzlei
Eine kleine Steuerkanzlei in Bamberg bekommt täglich 30 bis 80 Mails mit Anhängen: Rechnungen, Lieferscheine, Spesenbelege. Bisher hat eine halbe Bürokraft den Vormittag mit Sortieren verbracht.
Pi 5 plus Gemma 4 E4B (die stärkere Edge-Variante). Skript schaut alle 5 Minuten in den Eingang, öffnet Anhänge, klassifiziert per Vision-Mode: "Eingangsrechnung Mandant X", "Lieferschein Mandant Y", "Spam, ignorieren". Sortierte Dateien landen im passenden DMS-Ordner. Mandantendaten verlassen das Gerät nicht.
Aufwand: 2 Tage Setup (Mandanten-Glossar pflegen, Regelwerk schreiben). Ersparnis: rund 2 Stunden pro Tag, das macht im Jahr etwa eine 25-Prozent-Stelle frei. Die Bürokraft konzentriert sich jetzt auf Rückfragen und Mandantengespräche.
Wo der DSGVO-Vorteil real wird
Bei Cloud-KI ist die Datenverarbeitung in den USA die Hauptbaustelle. Du brauchst einen Auftragsverarbeitungsvertrag, du musst prüfen, ob das EU-US Data Privacy Framework noch trägt, du musst deine Mandanten oder Kunden informieren. Bei besonders sensiblen Daten (Gesundheit, Recht, Finanzen) wird das schnell zur Compliance-Hausarbeit.
Mit Gemma 4 auf dem Pi verlassen die Daten dein Gerät nicht. Kein Cloud-Anbieter, kein AVV, kein Drittlandtransfer. Du behandelst den Pi rechtlich wie einen lokalen Rechner.
Das heisst nicht "keine DSGVO". Du musst weiterhin Zugriffsrechte, Löschkonzepte und Backups regeln. Aber die kritischen Drittland-Themen entfallen. Für kleine Kanzleien, Arztpraxen, Lohnbüros oder Beratungen mit Mandantengeheimnis ist das ein echter Hebel.
Wo die Grenzen liegen
Es gibt drei harte Grenzen, die du kennen solltest, bevor du startest.
Erstens die Geschwindigkeit. 7,6 Tokens pro Sekunde auf dem Pi 5 reichen für kurze Antworten. Wer einen vollständigen Brief generieren lassen will (400 Wörter), wartet rund 90 Sekunden. Das ist nicht praxistauglich für kontinuierliches Schreiben. Für Frage-Antwort-Dialoge mit 30 bis 80 Wörter Antwort ist es ok.
Zweitens die Reasoning-Tiefe. Gemma 4 E2B ist gut für Faktenabruf, Klassifikation und einfache Schlussfolgerungen. Bei komplexen mehrstufigen Aufgaben (juristische Prüfung, mehrschichtige Steuerberechnung) bist du mit Claude Opus oder GPT-5.5 in der Cloud deutlich besser bedient. Edge-KI ergänzt Cloud-KI, sie ersetzt sie nicht.
Drittens die Wartung. Du musst selbst patchen, selbst Backups einrichten, selbst neue Modellversionen einspielen. Bei einem Pi pro Standort ist das ueberschaubar, bei 50 Standorten brauchst du Geräte-Management. Tools wie Balena oder Mender helfen, kosten aber wieder Aufwand und teilweise Geld.
Wer das unterschätzt
Wir sehen bei Mittelstandsberatungen immer wieder den Reflex, KI als "alles oder nichts" zu denken. Entweder die große Microsoft-Copilot-Einführung oder gar nichts. Dabei ist der lokale Pi mit Gemma 4 oft der unterschätzte Mittelweg, weil er bei klar abgegrenzten Aufgaben funktioniert, ohne dass du eine IT-Strategie schreiben oder ein Compliance-Projekt aufsetzen musst.
Wer den lokalen Ansatz unterschätzt, verliert in der Praxis zwei Dinge: Datenhoheit (bei sensiblen Branchen entscheidend) und Kostenkontrolle (kein "wir testen erstmal mit 50 Lizenzen"-Drift). Wir empfehlen typischerweise: Cloud-KI für Wissensarbeit und Texterstellung, Edge-KI für wiederholte Routineaufgaben mit sensiblen Daten. Beides parallel, beides mit klar definiertem Anwendungsfall.
Wer in der Werkstatt steht und 50 Mal am Tag dasselbe Datenblatt sucht, hat in 6 Wochen seine Investition raus. Wer einmal im Monat eine komplexe Recherche braucht, sollte sich keinen Pi hinstellen, sondern einen Claude-Pro-Zugang holen.
Setup-Schritte auf einen Blick
Damit du nicht im Bastler-Modus versinkst, hier die Reihenfolge, die bei uns funktioniert hat.
- Pi 5 zusammenbauen, microSD mit Raspberry Pi OS 64-bit bespielen, SSH aktivieren.
- LiteRT-LM CLI installieren (Anleitung von Google, etwa 15 Minuten).
- Gemma 4 E2B Gewichte herunterladen (rund 3 GB).
- Eigene Wissensbasis vorbereiten: PDFs zu Text konvertieren, Glossar als CSV.
- RAG-Pipeline aufsetzen (ChromaDB oder einfacher Keyword-Index reicht oft).
- Einfaches Web-Frontend (z.B. Streamlit) oder REST-API einbauen.
- Erstes Anwendungsszenario durchspielen, Antworten manuell bewerten, System-Prompt anpassen.
- Backup-Strategie definieren: microSD-Image wöchentlich klonen.
Schritt 4 und 5 sind erfahrungsgemäss die kritischen. Die Hardware steht in einer Stunde, der Datenpflege-Teil entscheidet über Qualität.
Was es kostet, wenn du es nicht selbst machen willst
Realistisch für ein KMU, das einen Anwendungsfall produktiv aufsetzen lassen will: 1.500 bis 3.500 Euro einmalige Einrichtung durch externen Dienstleister, je nach Datenmenge und Komplexität. Hardware kommt zusätzlich. Laufende Wartung etwa 200 bis 400 Euro pro Quartal.
Das ist immer noch deutlich günstiger als jährliche Cloud-KI-Lizenzen für ein ganzes Team plus Compliance-Beratung. Und wer einen Mitarbeiter dafür schulen will, bekommt das Wissen über geförderte Weiterbildungen wie den Digitalisierungsmanager oder über den Bildungsgutschein finanziert. Mehr dazu unter KI-Weiterbildung mit Bildungsgutschein.
Häufige Fragen
Kann ich Gemma 4 auf einem normalen Mini-PC statt Pi 5 laufen lassen?
Ja, jeder x86-Rechner mit 8 GB RAM und Linux läuft Gemma 4 E2B oder E4B. Auf einem alten Büro-PC mit 16 GB RAM bekommst du sogar deutlich mehr Tokens pro Sekunde als auf dem Pi. Der Pi 5 ist attraktiv, weil er klein, leise und stromsparend ist und ideal in Werkstätten oder Lagern passt. Im Büro ist ein Mini-PC oft die bessere Wahl.
Funktioniert das auch mit Microsoft-Office-Dateien als Wissensbasis?
Ja, mit Vorverarbeitung. Du konvertierst Word-Dokumente zu Markdown oder PDF, Excel-Tabellen zu CSV, Powerpoint zu Text. Tools wie pandoc oder Marker automatisieren das. Direkte Office-Anbindung gibt es nicht, weil Gemma 4 die proprietären Formate nicht versteht. Plane einen halben Tag für eine saubere Datenpipeline ein.
Welche Förderung gibt es für die Einführung von lokaler KI im KMU?
Direkt für Edge-KI-Hardware gibt es kein eigenes Förderprogramm. Aber: Wenn ein Mitarbeiter die Einführung und Wartung lernt, ist das eine Qualifizierung nach Qualifizierungschancengesetz (QCG), siehe QCG-Antrag. 25 bis 100 Prozent der Lehrgangskosten sind förderfähig, je nach Unternehmensgrösse. Auch Aufstiegs-BAföG für den Digitalisierungsmanager kommt in Frage.
Was passiert, wenn der Pi ausfällt?
Bei einem Hardware-Defekt ist der Pi in 30 Minuten ersetzt: neue microSD aus dem Backup-Image, neuer Pi, fertig. Deshalb ist die wöchentliche microSD-Sicherung Pflicht. Wer auf Nummer sicher gehen will, betreibt zwei Pis parallel im Active-Standby-Modus. Zusatzkosten: rund 130 Euro für die zweite Hardware.
Über den Autor
Dr. Jens Aichinger ist promovierter Wirtschaftspädagoge und Inhaber von SkillSprinters, einem DEKRA-zertifizierten Bildungsträger. Er entwickelt seit 2024 KI-gestützte Weiterbildungs- und Prozessautomatisierungslösungen für den Mittelstand. Über Skill-Sprinters läuft auch der Digitalisierungsmanager, eine 4-monatige geförderte Weiterbildung.
Bereit für den nächsten Schritt? Im kostenlosen KI-Schnupperkurs zeigen wir dir in 5 Lektionen, wie du lokale KI im eigenen Betrieb sinnvoll einsetzt. Inklusive Live-Demo am Mittwoch.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.