Auf einen Blick: Nous Research hat zwei Produkte namens Hermes. Hermes 4 ist die LLM-Familie (Llama-Finetune, neueste Version 4.3, lokal lauffähig). Hermes Agent ist das Workflow-Framework (v0.14, Mai 2026). Beide haben unterschiedliche Use-Cases. Wer in Tutorials liest "Hermes 4 mit Tools verbinden", meint meist Hermes Agent mit einem Hermes-Modell als Backend. Diese Verwechslung ist der häufigste Stolperstein.
Wenn du in den letzten Wochen über "Hermes" gelesen hast, war wahrscheinlich nicht klar, welches Produkt gemeint war. Nous Research hat im Mai 2026 zwei Releases gleichzeitig in den Markt gebracht, beide unter dem Namen Hermes. Das eine ist die neueste Version der LLM-Familie (Hermes 4.3). Das andere ist das Agent-Framework (Hermes Agent v0.14).
Die Verwirrung im Markt ist real. Foren-Posts, YouTube-Tutorials und LinkedIn-Beiträge werfen die zwei Produkte regelmäßig durcheinander. Wer ein lokales Modell sucht, landet bei der falschen Doku. Wer ein Framework sucht, lädt versehentlich nur die Modellgewichte. Eine klare Trennung spart drei Stunden Recherche.
Hermes 4 ist ein Modell. Hermes Agent ist ein Framework.
Die Hermes-LLM-Familie ist eine Reihe von Sprachmodellen, die Nous Research aus Llama-Modellen finetuned. Hermes hat eine eigene Persönlichkeit (etwas weniger zurückhaltend als das Standard-Llama, mit besserer Tool-Calling-Fähigkeit) und ist für eigenständige Inferenz ausgelegt. Du lädst die Gewichte, lädst sie in einen Inference-Server (Ollama, vLLM, llama.cpp) und sprichst über eine API mit dem Modell.
Hermes Agent ist ein Workflow-Framework. Es kommt ohne eigenes Modell. Du gibst ihm einen LLM-Endpoint (Claude, GPT, Hermes-Modell, beliebig), und das Framework orchestriert Tool-Calls, Multi-Agent-Workflows, OAuth-Flows und Webhooks. Hermes Agent v0.14 ist die aktuelle Version, veröffentlicht am 16. Mai 2026.
Die zwei Produkte können kombiniert werden, müssen aber nicht. Du kannst Hermes 4 ohne Hermes Agent nutzen (für reine Chat-Anwendungen). Du kannst Hermes Agent ohne Hermes 4 nutzen (mit Claude oder Mistral als Backend). Die häufigste sinnvolle Kombination: Hermes Agent als Framework, ein Cloud-Modell wie Claude Sonnet 4.6 als Backend, plus optional ein lokales Hermes-Modell für sensible Workloads.
Was Hermes 4.3 als Modell auszeichnet
Hermes 4.3 wurde mit Nous Psyche trainiert. Psyche ist der von Nous Research entwickelte Trainings-Infrastructure-Pfad, der laut Angaben des Anbieters effizienteres Finetuning auf Open-Weight-Basismodellen erlaubt. Das Ergebnis ist ein Modell, das auf Tool-Calling und strukturierte Outputs spezialisiert ist, ohne die allgemeine Sprachfähigkeit zu verlieren.
Verfügbare Quantisierungen sind 4, 5, 6 und 8 Bit, alle auf HuggingFace verfügbar. Die Quantisierung bestimmt, wie viel Speicher das Modell braucht und wie schnell es läuft. 4-Bit-Quantisierung ist der typische Einstieg für lokales Self-Hosting, weil das Modell dann auf realistischer Consumer-Hardware läuft.
Konkret für Hermes 4.3 36B: Mit 4-Bit-Quantisierung passt das Modell auf eine Dual-RTX-4090-Konfiguration (2x 24 GB VRAM). Wer höhere Präzision will, braucht eine NVIDIA A100 mit 80 GB oder vergleichbare Datacenter-GPU. Apple Silicon ist mit M2 Max bei 96 GB Unified Memory ebenfalls möglich, aber langsamer.
Die Lizenz ist Open Weight, derivativ von der Llama-Lizenz. Das bedeutet: kommerzielle Nutzung ist erlaubt, aber unter den Llama-Lizenzbedingungen. Wer Hermes 4.3 in einem Produkt mit mehr als 700 Millionen monatlichen aktiven Nutzern einsetzen will, braucht eine separate Lizenz von Meta. Für DACH-Mittelstand ist das praktisch keine Einschränkung.
Wann lohnt sich Hermes 4 als lokales Modell
Lokales Self-Hosting ist nicht für jeden sinnvoll. Drei Szenarien, in denen es sich rechnet:
Erstens: Datenschutz-kritische Workloads. Mandantendaten, Patientendaten, Personalakten. Wer mit Daten arbeitet, die unter § 203 StGB oder ähnlichen Strafnormen fallen, hat mit lokalem Hosting eine deutlich einfachere Compliance-Argumentation. Keine Cloud-Übertragung, kein Drittlandtransfer-Problem.
Zweitens: Hohes Token-Volumen. Eine Kanzlei oder Beratung, die täglich 500.000 Tokens an Claude oder GPT bezahlt, kann mit lokalem Hosting die Kosten signifikant senken. Stromkosten und Hardware-Amortisation müssen gegenüber API-Kosten gerechnet werden. Bei aktiver Nutzung über 24 Monate ist Self-Hosting meist günstiger.
Drittens: Verfügbarkeits-Anforderung. Wer eine Anwendung baut, die nicht von API-Outages oder Rate-Limits abhängen soll, ist mit lokalem Hosting auf der sicheren Seite. Cloud-Modelle haben gelegentliche Ausfälle, lokale Modelle sind so verfügbar wie deine eigene Hardware.
Was gegen lokales Hosting spricht: Hermes 4.3 ist 2026 ein sehr gutes Modell, aber nicht auf Claude-Opus-4.7- oder GPT-5-Pro-Niveau. Für komplexe Reasoning-Aufgaben, mehrstufige Logik oder feine sprachliche Nuancen sind die Cloud-Flagships überlegen. Die Lücke wird kleiner, ist aber real.
Was Hermes Agent von anderen Frameworks abhebt
Hermes Agent ist nicht das einzige Open-Source-Framework am Markt. LangGraph, CrewAI, AutoGen und einige weitere konkurrieren in dem Segment. Die Eigenschaften, die Hermes Agent in der Praxis ausmachen, sind die Tool-Routing-Logik (welches Tool wird wann mit welchem Modell gerufen) und die OAuth-Unterstützung für reale Cloud-Tools.
Modell-agnostisch heißt: Hermes Agent funktioniert mit Claude, GPT, Mistral, Hermes-Modellen oder beliebigen OpenAI-API-kompatiblen Endpoints. Du kannst innerhalb eines Workflows verschiedene Modelle für verschiedene Steps nutzen. Triage mit einem schnellen Haiku-ähnlichen Modell, komplexe Analyse mit einem Opus-ähnlichen Modell, lokales Modell für sensible Datenzugriffe.
Multi-Agent-Patterns sind in Hermes Agent direkt unterstützt. Sequential Pipeline, Router-Pattern, Hierarchical Orchestrator und Peer-to-Peer Critic lassen sich mit wenigen Code-Zeilen aufbauen. Die n8n Multi-Agent-Patterns mit Claude gelten in vergleichbarer Form auch für Hermes Agent.
Hermes Agent v0.14 brachte im Mai 2026 unter anderem verbesserte Webhook-Trigger und ein neues Audit-Log-Modul. Das macht den Einsatz in produktiven Umgebungen praktikabler. Vorher war Hermes Agent gut für Prototypen, jetzt ist es auch für kleinere Production-Workflows tauglich.
Praxis: Server-Setup bei IT-Dienstleister Boekmann GmbH
Ein konkretes Beispiel mit fiktiver Firma. Die Boekmann GmbH ist ein IT-Dienstleister in Köln, 18 Mitarbeiter, spezialisiert auf KMU-IT-Infrastruktur. Eigene Server in einem Rechenzentrum in Frankfurt, Linux-Affinität im Team, etwas Python-Erfahrung bei zwei Mitarbeitern.
Die Boekmann GmbH hat im April 2026 begonnen, einen Hermes-Stack für sich selbst aufzubauen. Ziel: interne Workflows automatisieren (Ticket-Triage, Standard-Antworten, Dokumentationen) ohne Cloud-Abhängigkeit. Die Hardware-Auswahl fiel auf einen Server mit 2x RTX 4090, 128 GB RAM, 4 TB NVMe-SSD. Anschaffungspreis 8.500 EUR.
Das Setup umfasst drei Schichten. Auf der untersten Schicht läuft Ollama als Modell-Server mit Hermes 4.3 36B in 4-Bit-Quantisierung. Auf der mittleren Schicht läuft Hermes Agent v0.14 als Workflow-Engine, angebunden an das interne Helpdesk-System und die DMS-Datenbank. Auf der oberen Schicht läuft Open WebUI als Chat-Interface für die Mitarbeiter.
Die Implementierung dauerte zwei Wochen produktiver Arbeit von einem Senior-IT-Mitarbeiter, plus eine Woche Test-Phase. Realistische Gesamt-Aufwand inklusive Wartung im ersten Jahr: 80 Stunden interne Arbeit. Externe Beratungskosten: keine, weil intern genug Linux- und Python-Kompetenz vorhanden war.
Nach drei Monaten Betrieb sind die Ergebnisse messbar. Ticket-Triage läuft vollautomatisch, 73 Prozent der eingehenden Tickets werden korrekt klassifiziert und routet. Standard-Antworten werden als Entwurf vorgeschlagen, 60 Prozent davon werden ohne Änderung freigegeben. Stromkosten liegen bei rund 35 EUR pro Monat, weil die GPUs nicht durchgehend unter Volllast laufen.
Was Boekmann nicht macht: Mandantendaten oder Personalakten durch das Hermes-Modell schicken, ohne dass die Daten vorher anonymisiert werden. Das ist eine bewusste interne Richtlinie. Sensible Daten bleiben in der Excel-Verarbeitung mit menschlicher Prüfung.
Hermes 4 oder Hermes Agent: Entscheidungsmatrix
Wer welchen Anwendungsfall hat, sieht das in dieser Übersicht:
| Anwendungsfall | Brauchst du Hermes 4? | Brauchst du Hermes Agent? |
|---|---|---|
| Lokaler Chatbot für Mitarbeiter ohne Cloud | Ja | Nein |
| Workflow-Automatisierung mit Cloud-LLM | Nein | Ja |
| Multi-Agent-Pipeline mit verschiedenen Modellen | Optional | Ja |
| Datenschutz-kritische Verarbeitung | Ja | Optional |
| Schnelle Prototypen mit Claude API | Nein | Ja, aber n8n geht auch |
| Maximales Datenschutz-Setup ohne Cloud | Ja | Ja |
| Reine Code-Generierung lokal | Ja (Hermes Code-Variante) | Nein |
| Token-Kosten unter Cloud-Niveau bringen | Ja | Optional |
Die Matrix macht klar: Beide Produkte sind eigenständig wertvoll. Die Kombination ist nur in spezifischen Szenarien sinnvoll, vor allem im maximalen Datenschutz-Setup.
Was im Markt regelmäßig verwechselt wird
In Tutorials und LinkedIn-Posts taucht Hermes als Sammelbegriff auf, was zu Verwirrung führt. Die häufigsten Verwechslungen:
"Hermes 4 mit n8n verbinden" meint meistens: Ein Hermes-LLM-Modell als Backend in einem n8n-Workflow nutzen. Das funktioniert über die OpenAI-kompatible API von Ollama. Hermes Agent kommt da nicht vor.
"Hermes 4 baut Multi-Agent-Workflows" meint meistens: Hermes Agent orchestriert mehrere Agents, von denen einer (oder alle) ein Hermes-LLM-Modell als Backend haben. Die Multi-Agent-Logik liegt im Framework, nicht im Modell.
"Hermes 4 ist Open Source" stimmt für die Modellgewichte unter Open-Weight-Lizenz. Hermes Agent ist ebenfalls Open Source (Apache 2.0). Beide sind frei nutzbar, aber unter verschiedenen Lizenz-Konditionen.
"Hermes 4.3 kann Tools nutzen" stimmt für das Modell (es ist auf Tool-Calling trainiert), aber für produktive Tool-Integration brauchst du ein Framework wie Hermes Agent, LangGraph, n8n oder eigene Integration.
Wer das einmal verstanden hat, navigiert die Dokumentation und Tutorial-Landschaft deutlich gezielter.
Wer das unterschätzt
In unseren Beratungsmandaten sehen wir regelmäßig, dass IT-Dienstleister und Mittelständler die Setup-Komplexität von lokalem Self-Hosting unterschätzen. Hermes 4.3 auf einem Server zum Laufen zu bringen ist mit Ollama in 30 Minuten erledigt. Hermes 4.3 in einem produktiven Workflow mit Hermes Agent, anbindung an internes DMS, sauberer Authentifizierung und Audit-Log ist deutlich mehr Aufwand. Realistische 80 bis 200 Stunden für ein erstes produktives Setup, je nach interner Kompetenz.
Was dagegen oft überschätzt wird: die laufende Wartung. Wenn das Setup einmal steht und stabil läuft, sind 2 bis 5 Stunden pro Monat realistisch. Updates der Modelle, kleinere Anpassungen der Workflows, gelegentliche Reviews der Audit-Logs. Wer einen technisch versierten Mitarbeiter hat, der diese Wartung übernimmt, hat einen funktionierenden lokalen KI-Stack ohne dauerhafte Cloud-Kosten.
Die ehrliche Empfehlung: Wenn du keine spezifischen Datenschutz-Anforderungen hast und keine extremen Token-Volumen, bleib bei Cloud-Modellen (Claude, GPT, Mistral). Wenn du diese Anforderungen hast und intern IT-Kompetenz aufbauen willst, ist die Hermes-Familie 2026 eine ernsthafte Option.
Was im nächsten Quartal zu erwarten ist
Nous Research arbeitet erkennbar an einer engeren Integration zwischen Modell und Framework. Hermes 4.4 oder Hermes 5 könnten bis Ende 2026 erscheinen, mit nativer Hermes-Agent-Unterstützung. Das würde die Verwechslung im Markt nicht auflösen, aber die Kombination der Produkte deutlich vereinfachen.
Mehr Open-Weight-Modelle drängen 2026 in den Markt. Mistral Medium 3.5, DeepSeek V4 Flash und Qwen 3.6 sind ernsthafte Konkurrenten zu Hermes. Wer ein lokales Modell auswählt, sollte nicht nur auf den Namen schauen, sondern auf konkrete Benchmark-Ergebnisse für den eigenen Anwendungsfall.
Wer einen lokalen Mac als Einstieg in eigenes KI-Hosting nutzen will, findet im Artikel zu lokalen LLMs auf dem Mac Mini M4 eine Übersicht für kleinere Setups. Für produktive KMU-Workflows ist allerdings ein dedizierter GPU-Server fast immer die bessere Wahl.
Wer das Thema KI-gestützte Prozessautomatisierung systematisch lernen will, einschließlich Frameworks wie Hermes Agent, n8n und Claude-Workflows, findet im Digitalisierungsmanager eine 4-monatige geförderte Weiterbildung. Vier Monate, komplett online, mit Bildungsgutschein 0 Euro.
Häufige Fragen
Kann ich Hermes 4 ohne GPU lokal laufen lassen?
Theoretisch ja, praktisch sehr langsam. Hermes 4.3 36B in 4-Bit-Quantisierung läuft auf einer modernen CPU mit 64 GB RAM, aber mit Antwortzeiten von 30 bis 60 Sekunden pro Anfrage. Für ernsthafte Nutzung ist eine GPU mit mindestens 16 GB VRAM Pflicht. Für die 36B-Variante eher 24 GB oder dual 4090.
Ist Hermes Agent ein Ersatz für n8n?
Nein, eher eine Ergänzung. n8n ist eine breite Workflow-Plattform mit hunderten Integrationen, eigenem UI, Cron-Triggern. Hermes Agent ist auf LLM-Orchestrierung und Tool-Use spezialisiert. Viele Setups kombinieren beide: n8n als Trigger und High-Level-Orchestrator, Hermes Agent für die LLM-Sub-Pipelines.
Welche Quantisierung soll ich für Hermes 4.3 wählen?
Für Einstieg und Standard-Workflows ist 4-Bit-Quantisierung der Mittelweg. Sie passt auf realistische Consumer-Hardware (Dual RTX 4090) und liefert in 80 bis 90 Prozent der Fälle Ergebnisse, die mit höherer Präzision vergleichbar sind. Wenn du komplexe Reasoning-Aufgaben hast oder lange Outputs brauchst, lohnen sich 6-Bit oder 8-Bit auf entsprechender Hardware.
Brauche ich für Hermes 4 einen eigenen Server oder reicht ein Workstation-PC?
Für Test und Entwicklung reicht eine Workstation mit GPU. Für produktiven Einsatz mit mehreren Nutzern empfiehlt sich ein dedizierter Server in einem Rechenzentrum oder im eigenen Serverraum. Workstations sind nicht für 24/7-Betrieb ausgelegt, die Garantie- und Wartungsbedingungen sind in der Regel schlechter. Ein einfacher Tower-Server mit Dual-GPU kostet 6.000 bis 10.000 EUR.
Über den Autor
Dr. Jens Aichinger ist promovierter Wirtschaftspädagoge und Inhaber von SkillSprinters, einem DEKRA-zertifizierten Bildungsträger. Er entwickelt seit 2024 KI-gestützte Weiterbildungs- und Prozessautomatisierungslösungen für den Mittelstand. Über Skill-Sprinters läuft auch der Digitalisierungsmanager, eine 4-monatige geförderte Weiterbildung.
Bereit für den nächsten Schritt? Wenn du KI im Geschäftsalltag systematisch einsetzen willst, mit klarem Setup statt halben Lösungen, schau dir den Digitalisierungsmanager an. Vier Monate, komplett online, mit Bildungsgutschein 0 Euro.
Zuletzt geprüft am 23. Mai 2026.
Bereit für deinen nächsten Karriereschritt?
Lass dich kostenlos beraten. Wir finden die passende Weiterbildung und Förderung für dich.