Apple hat mit dem M4-Chip die Einstiegshuerde für lokale KI deutlich gesenkt. Der Mac Mini mit 16 GB Unified Memory kostet rund 700 Euro und reicht für einen ernsthaften Teil dessen, was vor zwoelf Monaten noch eine 4090 brauchte. Das ist kein Marketing-Versprechen, sondern wir haben es seit Februar 2026 bei drei DigiMan-Teilnehmern parallel im Einsatz.
Die ehrliche Antwort: Ja, du kannst sinnvoll lokal arbeiten. Aber nicht jedes Modell läuft, und nicht jede Aufgabe lohnt sich.
Welche Modelle in 16 GB RAM passen
Modelle messen sich in zwei Achsen: Parametergroesse und Quantisierung. Ein Modell mit 8 Milliarden Parametern in 4-Bit-Quantisierung belegt rund 5 GB RAM. Auf einem 16-GB-Mac bleiben dann 11 GB für Betriebssystem, Browser und den Kontext, mit dem du arbeitest.
Praktisch laufen 2026 stabil:
- Llama 3.3 8B (Q4_K_M): rund 5 GB, schnell, für Routine-Aufgaben gut genug
- Mistral Small 3 (24B Q4): rund 14 GB, langsamer aber qualitativ deutlich besser, Kontextfenster knapp
- Qwen 3 14B (Q4): rund 9 GB, gute Balance, mehrsprachig stark
- Gemma 4 9B (Q4): rund 6 GB, schnell, von Google gut auf Long-Context optimiert
- DeepSeek V4 Flash (12B Q4): rund 7 GB, ueberraschend stark für Reasoning auf dem Gerät
Was nicht reinpasst: Llama 4 70B, Mistral Large, DeepSeek V4 Pro. Dafuer brauchst du 64 GB oder mehr, was im Mac Mini nicht möglich ist.
Token-Geschwindigkeit in der Praxis
Wir haben mit Ollama und LM Studio gemessen, mit kurzen Prompts (rund 200 Token Input, 500 Token Output):
- Llama 3.3 8B: rund 30 Token pro Sekunde, fluessig
- Mistral Small 3 24B: rund 8 Token pro Sekunde, lesbar wie ein langsamer Mensch tippt
- Qwen 3 14B: rund 18 Token pro Sekunde, angenehm
- DeepSeek V4 Flash: rund 22 Token pro Sekunde
- Gemma 4 9B: rund 28 Token pro Sekunde
Zum Vergleich: ChatGPT Plus oder Claude Pro liefern in der Cloud rund 60 bis 100 Token pro Sekunde. Lokal ist es spuerbar langsamer, aber nicht so langsam, dass du das Tippen verlernst.
Was sich lohnt, was nicht
Lokal sinnvoll sind alle Aufgaben mit sensiblen Daten oder Bulk-Routine:
- Mandanten-E-Mails klassifizieren (Anwalt, Steuerberater, Berater)
- Patientenakten zusammenfassen vor manueller Prüfung
- Verkaufsmails an Bestandskunden personalisieren mit Kundendaten aus dem CRM
- Naechtliche Berichte aus Datenbanken generieren
Was lokal Frust macht: Live-Chat-Interaktion, komplexe Coding-Aufgaben, Bildverarbeitung in großer Aufloesung. Da bleiben Cloud-LLMs der Standard.
Tool-Empfehlung: Ollama plus Open WebUI
Wir haben drei Setups durchgespielt. Was sich am besten gehalten hat:
- Ollama als Modell-Runner. Installation per Brew, Modelle per
ollama pullziehen. Sehr stabil. - Open WebUI als Browser-Frontend. Selbstgehostet im Docker, sieht aus wie ChatGPT, kann mehrere Modelle parallel.
- n8n AI-Node mit Ollama-Endpoint. So fliessen lokale Modelle direkt in Workflow-Automation.
LM Studio ist eine schoene Alternative mit eingebauter UI, aber weniger flexibel bei der Integration. Wer programmiert, nimmt Ollama, wer einfach Chatten will, ist mit LM Studio schneller fertig.
Stromverbrauch und Laufzeit
Der Mac Mini M4 zieht im Idle rund 5 Watt, unter Last rund 25 Watt. Das ist deutlich weniger als ein 4090-PC mit 350 Watt. Ueber zwoelf Stunden taegliche Nutzung mit gemischter Last sind das rund 0,18 Kilowattstunden, also etwa 6 Cent Strom pro Tag bei 35 Cent pro Kilowattstunde.
Praktisch heisst das: Du kannst den Mini durchlaufen lassen und brauchst keinen Server-Schrank. Auch nachts laufen Batch-Jobs ohne nennenswerte Energiekosten.
Wann der M4-Mini nicht reicht
Wenn du regelmäßig:
- mit langen Kontexten über 100.000 Token arbeitest (dann brauchst du mehr RAM oder Cloud)
- Reasoning-Modelle in voller Größe nutzen willst (DeepSeek V4 Pro, Llama 4 70B)
- mehrere User parallel bedienen musst (lokales Ollama serialisiert)
- Image- oder Video-Generation lokal machen willst (anderes Anforderungsprofil, eher RTX 4090 oder Mac Studio)
Dann ist der M4-Mini zu klein. Naechste Stufe ist der Mac Studio M4 Ultra mit 64 oder 128 GB Unified Memory, der startet bei rund 4.500 Euro.
Was wir bei Teilnehmern sehen
Drei DigiMan-Absolventen haben seit Februar 2026 einen Mac Mini M4 als KI-Heimserver. Zwei nutzen es für freiberufliche Klassifikations-Jobs, einer für eigene SaaS-Idee. Alle drei berichten: Der erste Monat ist Lernkurve (Modelle aussuchen, Quantisierung verstehen, Prompts anpassen), ab dem zweiten Monat läuft es.
Ehrlich: Wer keine Lust auf Terminal-Output und Modell-Vergleich hat, sollte bei Cloud-Diensten bleiben. Lokales LLM ist kein Plug-and-Play, sondern eine Entscheidung für ein bisschen Tech-Eigenarbeit gegen volle Datenkontrolle.
Haeufige Fragen
Ist ein 8-GB-Mac Mini für LLMs nutzbar? Theoretisch ja, praktisch nur für Modelle bis 4 Milliarden Parameter (Llama 3.2 3B, Phi 4 Mini). Die Antworten sind merklich schwaecher als bei Cloud-LLMs. Für ernsthafte Arbeit empfehlen wir 16 GB als Untergrenze.
Welche Modelle eignen sich für Deutsch? Mistral Small 3, Llama 3.3, Qwen 3 und Gemma 4 sind alle solide auf Deutsch. DeepSeek V4 Flash hat manchmal Anglizismen, ist aber inhaltlich praezise.
Kann ich Modelle in n8n einbinden? Ja, über den HTTP-Request-Node oder den OpenAI-kompatiblen Endpoint von Ollama. Das funktioniert genauso wie der OpenAI-Node, nur mit Localhost-URL und ohne API-Key.
Lohnt sich der Mac Mini gegenüber ChatGPT Plus für 23 Euro im Monat? Rein finanziell rechnet sich der Mini bei normaler Nutzung erst nach rund drei Jahren. Der Vorteil ist nicht Kostenersparnis, sondern Datenkontrolle und Unabhaengigkeit vom Anbieter.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.