Small Language Models sind der Gegenentwurf zu GPT-5, Claude Opus und Gemini 2.5 Pro. Sie haben 1 bis 14 Milliarden Parameter statt Hunderte. Sie laufen auf einer Consumer-GPU oder sogar auf einem Laptop. Und sie sind 5- bis 20-mal günstiger als die großen Flaggschiffe. Für viele spezifische Aufgaben im KMU-Alltag sind sie inzwischen die bessere Wahl. Nicht weil sie "fast so gut" sind, sondern weil sie für abgegrenzte Aufgaben schneller, billiger und datenschutzfreundlicher sind.

Das Wichtigste in Kürze

Was ein Small Language Model genau ist

Die Grenze ist fliessend. Üblicherweise werden Modelle mit weniger als 15 Milliarden Parametern als SLM bezeichnet, ab 30-70B als mittelgross, über 100B als gross. Microsoft Phi-4 liegt mit 14B direkt an der Grenze. Google Gemma 3 reicht von 1B bis 27B, womit das grösste Modell schon nicht mehr "small" ist.

Wichtiger als die reine Parameterzahl ist die Architektur. SLMs werden bewusst für enge Aufgaben trainiert: Code generieren, Texte klassifizieren, Fragen beantworten in einer Domäne, Zusammenfassungen. Sie sind nicht so gut wie Claude Opus, wenn du sie nach einer komplexen strategischen Analyse fragst. Sie sind oft besser, wenn du sie auf ein konkretes Format und eine konkrete Aufgabe trainierst.

Die wichtigsten Modelle 2026 und wofür sie gut sind

Microsoft Phi-4 (14B): Starke Leistung in Mathematik, Logik und Code. Gut für technische Aufgaben, Klassifikation, strukturierte Extraktion. Open Weights auf Hugging Face verfügbar.

Google Gemma 3 (4B, 12B, 27B): Multimodal ab 4B, kann Bilder als Input verarbeiten. Gute Wahl für OCR-Aufgaben, Belegerfassung, visuelle Qualitätskontrolle. Gemma 3 27B ist für KMU-Eigenbetrieb schon grenzwertig, weil die Hardware-Anforderungen steigen.

Mistral 7B: Einer der ersten erfolgreichen SLMs, ausgereifte Tooling-Landschaft. Gut als Allzweck-Modell für Chat, Zusammenfassung, Textanalyse.

Meta Llama 3.2 (1B/3B): Die 1B-Variante läuft auf Mobilgeräten. Die 3B-Variante ist der Standard für Lightweight-Deployment. Gut für Edge-Cases: Chatbots, die offline funktionieren müssen, oder In-App-Features.

Qwen 2.5: Starkes mehrsprachiges Modell, auch im Deutschen gut. Alibaba Cloud als Herkunft ist bei deutschen KMU ein Diskussionspunkt, aber die Open-Weights-Varianten kannst du unabhängig hosten.

Jedes dieser Modelle hat eine Stärke. Welches du nimmst, hängt von deinem Use-Case ab. Für deutsche Texte ist Mistral oder Qwen oft besser als Phi. Für englische technische Texte ist Phi oft die beste Wahl.

Wo SLM im KMU Sinn macht

Domänen-spezifische Klassifikation: Du willst eingehende Mails automatisch in Kategorien sortieren (Rechnung, Reklamation, Anfrage, Bewerbung). Ein SLM, das du auf ein paar Hundert deiner eigenen Mails feintunst, schlägt hier oft GPT-5 in Genauigkeit und ist 20-mal günstiger.

Strukturierte Extraktion: Aus PDFs die relevanten Felder ziehen (Rechnungsnummer, Betrag, Kreditor, Datum). Phi-4 macht das gut und kostet pro Dokument einen Bruchteil eines Cents.

Offline-Nutzung: Ein Service-Techniker im Keller ohne Mobilfunk braucht Zugang zu deiner Produktdatenbank. Ein lokales Llama 3.2 3B auf dem Laptop beantwortet Fragen, ohne dass eine Cloud-Verbindung nötig ist.

Datenschutz-kritische Workloads: Du verarbeitest Bewerberdaten, Mitarbeiterdaten, Gesundheitsdaten. Ein SLM auf deinem eigenen Server in Deutschland verlässt deine Infrastruktur nie. Keine Auftragsverarbeitung mit US-Anbietern, keine Fragezeichen bei DSGVO.

Kosten-Schwellen: Bei Volumina über 10.000 Anfragen pro Tag wird API-Nutzung von Claude oder GPT teuer. Ein selbst gehostetes SLM auf einer 2000-Euro-GPU kann dort schnell die bessere Rechnung sein.

Wo SLM an die Grenze kommt

Komplexes Reasoning, bei dem das Modell über mehrere Schritte nachdenken muss. Hier sind Claude Opus 4.7 und GPT-5 weiter deutlich überlegen. Kein SLM kommt an diese Modelle in freier Problemlösung heran.

Offene Generierung mit hohem Qualitätsanspruch. Marketing-Copy, die überzeugen soll. Newsletter mit richtigem Ton. Strategische Analysen. Hier zahlt sich das große Modell weiter aus.

Aufgaben mit wenig Kontext. Wenn du ein SLM ohne Fine-Tuning und ohne gut gebautes Prompt nutzt, sind die Ergebnisse oft schwach. SLMs brauchen Fleisch am Knochen: klare Prompts, gute Retrieval-Pipelines oder Fine-Tuning.

Kosten in der Realität

Bei API-Nutzung: Anthropic Claude Haiku kostet aktuell rund 1 USD pro Million Input-Tokens. Ein Phi-4-Hosting auf Together AI oder Fireworks AI kostet rund 0,20 bis 0,30 USD pro Million. Das ist der Faktor 3-5.

Bei Self-Hosting: Eine RTX 4090 (24 GB VRAM) kann Phi-4 quantisiert problemlos laufen lassen. Anschaffung: 1800-2200 Euro. Strom: 50-80 Euro/Monat bei ständigem Betrieb. Auf dieser Hardware schaffst du 5-15 Tokens pro Sekunde je nach Modell und Batch. Für 10.000 Anfragen pro Tag à 500 Output-Tokens ist das knapp, aber machbar. Ab 50.000 Anfragen wird es eng, dann brauchst du eine zweite Karte oder eine H100.

Bei Managed SLM-Hosting (Groq, Together, Fireworks, Cerebras): zwischen 500 und 2000 USD pro Monat für ein produktives Setup mit 10k Queries/Tag. Kein Hardware-Risiko, aber ongoing Kosten.

Eigene Einschätzung

In der Praxis sehen wir zwei Fehler. Erster Fehler: KMU nutzen GPT-4 für alles, auch für banale Klassifikation. Das ist wie mit dem Panzer zum Bäcker fahren. Zweiter Fehler: KMU starten direkt mit Self-Hosting eines SLMs und scheitern an der Tooling-Komplexität (Model-Loading, Batching, GPU-Utilization, Monitoring).

Der pragmatische Weg: Fang mit einem SLM-Hoster wie Together AI oder Fireworks AI an. Dort rufst du Phi-4 oder Llama 3.2 genauso einfach wie die OpenAI-API. Wenn du dann sechs Monate später merkst, dass dein SLM-Use-Case stabil läuft und 5.000 Euro pro Monat an API-Kosten frisst, zieht sich das Self-Hosting wirtschaftlich. Vorher fast nie.

Wie das bei uns in der Praxis aussieht

Wir bei SkillSprinters nutzen SLMs selbst für zwei Use-Cases: Moodle-Klassifikation (welche Kursfragen sind inhaltlich relevant, welche sind Support) und automatische Belegerfassung für unsere Lexware-Anbindung. Beides läuft auf Mistral 7B via Together AI. Die Kosten liegen bei zusammen unter 15 Euro pro Monat. Mit GPT-4 hätten wir wahrscheinlich 150-200 gezahlt.

Im DigiMan-Kurs behandeln wir in einem Modul explizit die Wahl zwischen SLM und LLM für KMU-Cases. Wer einen Einstieg sucht, findet im KI-Schnupperkurs fünf kostenlose Lektionen. Bei bewilligtem Bildungsgutschein: 0 Euro Eigenanteil für den Vollkurs.

FAQ

Was ist ein Small Language Model?

Ein SLM hat typischerweise weniger als 15 Milliarden Parameter. Es ist auf spezifische Aufgaben zugeschnitten und läuft oft auf einer einzelnen GPU oder sogar einem Laptop. Beispiele: Microsoft Phi-4, Google Gemma 3, Meta Llama 3.2, Mistral 7B.

Wie viel günstiger sind SLMs im Vergleich zu großen Modellen?

Bei API-Nutzung liegt der Faktor zwischen 3 und 20, abhängig vom Anbieter und Modell. Typisch sind 0,10-0,50 USD pro Million Tokens bei SLMs gegen 2-30 USD bei GPT-5, Claude Opus 4.7 oder Gemini 2.5 Pro.

Kann ich ein SLM selbst auf meinem Server hosten?

Ja. Für Modelle bis ca. 7B Parameter reicht eine Consumer-GPU wie eine RTX 4090. Für Phi-4 oder Gemma 3 12B wird es knapp, aber möglich. Ab 27B brauchst du Profi-Hardware (H100 oder ähnlich) oder Multi-GPU-Setups.

Welches SLM eignet sich für deutsche Texte am besten?

Mistral 7B und Qwen 2.5 haben im Deutschen eine gute Qualität. Gemma 3 ist ebenfalls mehrsprachig trainiert. Bei Phi-4 ist die Performance in Deutsch etwas schwächer als in Englisch. Für rein deutschsprachige Aufgaben empfiehlt sich ein Test mit Mistral, Qwen und Gemma auf einem echten Datensatz.

Bereit für deinen nächsten Karriereschritt?

Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.

Weiterbildung ansehen WhatsApp