KI-Sprachassistenten uebernehmen Terminvereinbarung, Vorqualifizierung und After-Hours-Rueckrufe. Drei Tool-Klassen, wirtschaftlich ab 300 Minuten pro Monat. Pflicht: Transparenz nach Art. 50 KI-VO, Art. 4 Schulung seit 02.02.2025.
Die Telefonzentrale ist im Mittelstand 2026 einer der großen ungenutzten Hebel für KI. Eingehende Anrufe, Terminvereinbarungen, Vorqualifizierungen und Rückruflogik fressen in vielen Firmen 1-3 Vollzeitäquivalente - und trotzdem geht in Stoßzeiten regelmäßig etwas verloren. KI-Sprachassistenten (Voice-Bots) können einen großen Teil dieser Arbeit übernehmen, ohne dass Anrufer das als Zumutung empfinden. Die Technologie ist 2026 gut genug. Die offenen Fragen sind nicht mehr "funktioniert das", sondern "wo hört die KI auf und übergibt an einen Menschen" und "wie setzt man das DSGVO- und AI-Act-konform auf".
Dieser Artikel zeigt die drei Tool-Klassen, die typischen Use-Cases, was Art. 50 KI-VO zur Transparenzpflicht verlangt, realistische Kosten pro Minute - und einen 60-Tage-Pilotplan für die eigene Zentrale.
Drei Tool-Klassen
Der Markt für Voice-AI hat sich 2025 und 2026 stark sortiert. Drei Klassen von Tools haben sich herausgebildet, die sich in Integrationstiefe, Flexibilität und Kosten unterscheiden.
Native IVR- und PBX-Extensions
Klassische Telefonanlagen (3CX, Placetel, sipgate, Telekom-Cloud-Varianten) haben inzwischen fast alle KI-Erweiterungen. Hier bleibt die bestehende IVR-Logik - "drücken Sie die 1 für..." - aber die Menüs werden intelligenter. Der Anrufer kann "ich brauche einen Termin" sagen und landet direkt bei der richtigen Routingregel.
Stärken: einfaches Setup, bleibt in einer Rechnung mit deinem PBX-Anbieter, bekannte Ausfallsicherheit. Datenschutz ist oft klar geregelt (EU-Hosting über den PBX-Anbieter). Grenzen: Die "KI" ist hier meist eher bessere Spracherkennung. Freie Dialoge, Terminvereinbarung oder Vorqualifizierung gehen nur rudimentär.
Voice-AI-Plattformen
Voice-AI-Plattformen sind die flexibelste Variante. Anbieter wie VAPI, Retell, Synthflow, Vocode und ElevenLabs Voice AI (laut eigenen Angaben der jeweiligen Anbieter, Stand April 2026) bieten Baukästen, mit denen du einen Voice-Bot mit beliebigem Dialog-Flow, frei wählbaren Stimmen und eigenen Tool-Integrationen bauen kannst. Unter der Haube läuft ein Sprach-Erkennungs-Modell, ein LLM für die Antwortlogik und ein Text-to-Speech-Modell für die Ausgabe.
Stärken: Flexibilität, natürlich klingende Stimmen, freie Dialoge, einfache Anbindung an CRM, Kalender oder Ticket-Systeme über Webhooks. Grenzen: du baust die Logik selbst - das ist nicht "Plug and Play". DSGVO und Datenregion müssen aktiv geprüft werden, die meisten dieser Anbieter sind US-basiert. EU-Hosting ist oft verfügbar, muss aber vertraglich abgesichert werden. Kosten pro Minute sind üblicherweise verbrauchsabhängig.
Customer-Service-Plattformen mit Voice-Modul
Größere Kundenservice-Plattformen (Zendesk, Freshdesk, Salesforce Service Cloud und ähnliche - laut eigenen Angaben der Anbieter, Stand April 2026) haben Voice-Module integriert, die sich nahtlos in das Ticket-System einfügen. Der Bot nimmt den Anruf an, löst einfache Fälle, öffnet bei Bedarf ein Ticket, routet zum Menschen.
Stärken: Tiefe Integration mit dem bestehenden Support-Stack, einheitliches Reporting, DSGVO meist im Paket geregelt. Grenzen: teurer, weniger flexibel für Nicht-Support-Use-Cases, und wenn du die Plattform nicht sowieso einsetzt, ist der Einstiegsaufwand hoch.
Die wichtigsten Use-Cases im Mittelstand
Nicht jeder Anwendungsfall eignet sich für Voice-AI. Drei Use-Cases haben sich im Mittelstand als besonders belastbar erwiesen.
Terminvereinbarung
Der Klassiker. Dienstleister - von der Zahnarztpraxis über den Kfz-Betrieb bis zur Handwerkerfirma - bekommen Anrufe, bei denen der einzige Zweck die Terminvereinbarung ist. Die KI checkt den Kalender, schlägt Termine vor, bestätigt, sendet SMS oder E-Mail mit Details.
Durchschnittliche Handling-Zeit: 60-120 Sekunden. Abschlussquote (ohne Übergabe an Mensch): 70-90 Prozent. Wenn der Kalender sauber integriert ist und die Dialog-Flow nicht über 3-4 Fragen hinausgeht, fühlt sich das für Anrufer angemessen an.
Vorqualifizierung eingehender Leads
Eingehende Anrufe auf Marketing- oder Verkaufs-Nummern werden von der KI vorqualifiziert. Der Bot fragt nach Firma, Rolle, Bedarf, Zeitrahmen. Diese Daten landen im CRM - und der Mensch wird nur bei qualifizierten Leads gestört.
Das entlastet Vertrieb, vermeidet Ghosting nach Feierabend und bringt auch bei hohem Anrufvolumen ein konsistentes Pre-Qualification-Niveau. Es senkt die Close-Rate nicht, solange die Übergabe an den Menschen innerhalb von wenigen Stunden passiert.
Rückruflogik und Erreichbarkeit außerhalb der Geschäftszeiten
Der Bot nimmt an, wenn niemand sonst kann. Er nimmt ein Anliegen auf, sammelt Kontaktdaten, priorisiert grob ("dringend / kann warten"), und legt im CRM oder Ticket-System einen Rückruftermin an. Am nächsten Morgen kennt euer Team die Warteschlange - inklusive ersten Sortierungen.
Das ist besonders stark für Handwerk, Immobilienverwaltung und Dienstleister mit klassischen Öffnungszeiten. Die Alternative ist entweder ein Anrufbeantworter oder ein externer Call-Service. Voice-AI ist die günstigere, besser integrierte Variante.
Art. 50 KI-VO: Transparenzpflicht
Ein sensibles Thema. Artikel 50 der EU KI-Verordnung regelt, dass KI-Systeme, die mit natürlichen Personen interagieren, dies offen kommunizieren müssen. Das heißt: der Anrufer muss wissen oder unmittelbar erkennen können, dass er mit einer KI spricht. Die Pflicht gilt für KI-Systeme ab August 2026 vollumfänglich (Art. 50 ist Teil der General-Purpose- und allgemeinen Transparenzregeln).
Praktisch bedeutet das:
- Ansage zu Beginn: "Ich bin der digitale Assistent von [Firma]..." oder eine vergleichbare, leicht verständliche Formulierung. Das Wort "KI" oder "Assistent" muss fallen.
- Jederzeitige Übergabe an Mensch: Der Anrufer muss per Sprachkommando ("zum Menschen", "echte Person") oder Zifferneingabe jederzeit an einen Menschen weitergeleitet werden können.
- Keine Verschleierung: Auch wenn die Stimme sehr natürlich klingt, darf kein Eindruck entstehen, dass eine bestimmte echte Person am Telefon ist. Namensgebung also neutral halten ("digitaler Assistent" statt "Anna von XY").
Die KI-Kompetenzpflicht nach Art. 4 KI-VO gilt seit 2. Februar 2025. Jeder Mitarbeiter, der den Voice-Bot administriert oder pflegt, braucht eine dokumentierte KI-Schulung. Im Digital Omnibus Trilog am 28. April 2026 wurde über Verschiebungen einzelner Fristen verhandelt; Art. 4 war bis zuletzt nicht Teil der Verschiebungspläne.
DSGVO-Bewertung
Voice-AI ist datenschutzrechtlich nicht trivial. Drei Punkte prüfst du vor dem Live-Gang:
- Auftragsverarbeitungsvertrag: Mit dem Voice-AI-Anbieter, mit dem TTS-Anbieter falls separat, und mit dem LLM-Anbieter falls eigenständig. In Plattformen ist das meist gebündelt.
- Aufzeichnung von Gesprächen: Wenn der Bot das Gespräch mitschneidet (für Quality-Review, Protokoll, Transkript), muss das am Anfang angekündigt werden. Aufbewahrungsfrist klar definieren.
- Datenregion: EU-Hosting ist Pflicht. Wenn der Anbieter US-basiert ist, muss EU-US Data Privacy Framework greifen und die Transit-Datenverarbeitung in der EU erfolgen. Stand April 2026 ist das DPF weiterhin in Kraft, aber unter Druck.
Ein Betriebsrat muss bei Themen, die Mitarbeiter betreffen (zum Beispiel Anrufe von Bewerbern, interne Hotlines), eingebunden werden. Es ist kein Hexenwerk, aber es ist ein Prozess-Thema.
Realistische Kosten pro Minute
Die Preismodelle sind unterschiedlich. Voice-AI-Plattformen rechnen üblicherweise pro Minute ab. Native PBX-Extensions haben Pauschalpreise mit inkludierten Minuten. Customer-Service-Plattformen sind meist User-basiert plus Voice-Modul-Aufschlag.
Illustrative Bandbreite (Stand April 2026, ohne Setup-Kosten):
| Setup | Kosten pro Minute | Einmalige Kosten | Passend für |
|---|---|---|---|
| Native PBX-Extension | 0,05-0,15 EUR | 0-1.000 EUR | Einfache IVR-Use-Cases, keine Dialoge |
| Voice-AI-Plattform (self-built) | 0,15-0,40 EUR | 3.000-15.000 EUR Aufbau | Terminvereinbarung, Vorqualifizierung, eigene Logik |
| Voice-AI-Plattform (managed) | 0,30-0,60 EUR | 5.000-20.000 EUR Aufbau und Training | Komplexere Dialoge, wenig interne Kapazität |
| Customer-Service-Plattform Voice-Modul | 0,20-0,50 EUR plus Lizenz | je nach Plattform | Bestandskunden der Plattform |
Enterprise-Pricing wird verhandelt. Preise ohne Gewähr und branchenüblichen Rabatten.
Zum Vergleich: ein extern beauftragter Call-Service kostet in Deutschland 2026 etwa 1,50-3,00 EUR pro Minute oder als Monats-Pauschale 800-2.000 EUR für kleinere Volumina. Ein interner Vollzeit-Mitarbeiter kostet voll belastet ca. 50-60 EUR pro Stunde. Der Voice-Bot ist bei Volumen ab ca. 300 Minuten pro Monat wirtschaftlich konkurrenzfähig und skaliert ohne proportional steigende Kosten.
Grenzen: wann der Mensch noch braucht
Voice-AI hat 2026 klare Grenzen. Drei Situationen gehören eindeutig dem Menschen:
- Emotionale Gespräche: Beschwerden, Eskalationen, Verlust-Situationen. Hier hilft kein noch so gut trainierter Bot.
- Komplexe Technik-Fragen: Wenn der Anrufer 15 Minuten Kontext braucht, bevor die eigentliche Frage klar ist. Der Bot verliert Faden und Geduld.
- Geschäfts- und Rechtsfragen: Preisverhandlungen, Sonderabsprachen, juristische Fragen. Darf die KI grundsätzlich nicht beantworten - und sollte sie auch nicht.
Die Kunst beim Design ist die Übergabe-Logik. Der Bot muss erkennen, wann er überfordert ist, und sauber übergeben - mit Kontext-Protokoll an den Menschen, damit der Anrufer nichts wiederholen muss. Das ist der Punkt, an dem schlechte Setups auffliegen: der Anrufer muss alles nochmal erzählen, und dann ist es eine Zumutung.
60-Tage-Pilotplan
So baust du den ersten Voice-Bot systematisch auf. Für eine Firma mit 20-100 Mitarbeitenden und einer klassischen Zentrale.
- Woche 1-2: Use-Case-Wahl. Termin, Vorqualifizierung oder After-Hours-Rückruf - einen klaren Use-Case auswählen, nicht drei parallel. Analyse der letzten 200 eingehenden Anrufe: wie viele Prozent passen in den gewählten Use-Case?
- Woche 3: Tool-Entscheidung. PBX-Extension, Voice-AI-Plattform oder Customer-Service-Plattform? AVV, Datenregion, Kosten vergleichen. Anbieter-Demo einholen.
- Woche 4-6: Setup und Dialog-Design. Die Dialog-Flow aufschreiben (!), dann im Tool bauen. Maximal 4-6 Entscheidungspunkte, jederzeit "zum Menschen" erreichbar. CRM- oder Kalender-Integration.
- Woche 7: Internes Testing. Kollegen rufen den Bot an und probieren ihn aus. Jeden Dialog-Fehler dokumentieren. Ton und Wortwahl anpassen.
- Woche 8: Soft-Launch mit ausgewähltem Nummernkreis (zum Beispiel nur die Marketing-Hotline, noch nicht die Hauptnummer). Tägliches Review der ersten 50 Calls.
- Woche 9: Feinschliff. Häufigste Fehl-Routings beheben. Tonalität nachjustieren. Transkript-Protokolle an die Fachabteilungen geben.
- Woche 10+: Rollout auf Hauptnummer oder weitere Einstiegspunkte. Auswertung nach KPIs: Abschluss-Rate, Übergabe-Rate, Kundenzufriedenheit (kurze SMS-Umfrage 24h nach Call), Kosten pro gelöstem Anliegen.
Ein nüchterner Pilot läuft in diesem Zeitrahmen. Rechne mit Rückschritten: der Bot wird beim ersten Live-Einsatz Dinge falsch machen. Das ist normal. Wichtig ist, dass du die Lerneschleife eingebaut hast - tägliches Transkript-Review in den ersten zwei Wochen, dann wöchentlich.
Was diese Woche tun
Wenn du mit Voice-AI starten willst, drei konkrete Schritte:
- Anruf-Inventur: Zieh aus deiner Telefonanlage oder aus der Erinnerung der Zentrale: was sind die Top-5-Anrufgründe? Wie oft pro Woche? Welcher Anteil ist "einfach genug für KI"?
- AI-Act-Check: Habt ihr KI-Kompetenz nach Art. 4 dokumentiert? Wenn nicht, ist das der erste Fehler, bevor ihr irgendein Voice-Tool in Betrieb nehmt.
- Anbieter-Demo: Nicht kaufen. Anrufen. Drei Anbieter aus unterschiedlichen Tool-Klassen testen: eine Voice-AI-Plattform (zum Beispiel VAPI oder Retell), dein PBX-Anbieter, eine Customer-Service-Plattform falls relevant. Fragen: Datenregion, AVV, Transparenz-Ansage, Übergabe-Logik, Kosten pro Minute.
Der Voice-Bot ersetzt die Zentrale nicht. Er entlastet sie. Das ist der wichtige Unterschied. Wer ihn als "dann können wir die Zentrale sparen" verkauft, bekommt ein schlechtes Produkt und unzufriedene Anrufer. Wer ihn als "wir nehmen den Boden-Last weg, damit unsere Menschen die echten Fälle machen" aufsetzt, gewinnt.
Häufige Fragen
Fuer welche Anrufe eignet sich ein KI-Sprachassistent ueberhaupt?
Am besten fuer Terminvereinbarung, Lead-Vorqualifizierung und Rueckrufaufnahme ausserhalb der Geschaeftszeiten. Typische Handling-Zeit 60 bis 120 Sekunden, Abschlussquote 70 bis 90 Prozent. Emotionale Beschwerden, komplexe Technik-Fragen und Preisverhandlungen gehoeren dagegen weiter dem Menschen.
Was kostet ein Voice-Bot pro Minute realistisch?
Native PBX-Extensions liegen bei 0,05 bis 0,15 Euro pro Minute. Voice-AI-Plattformen wie VAPI oder Retell bei 0,15 bis 0,40 Euro, managed zwischen 0,30 und 0,60 Euro. Setup-Kosten rangieren je nach Komplexitaet von 0 bis 20.000 Euro. Ab 300 Minuten pro Monat ist ein Voice-Bot wirtschaftlich konkurrenzfaehig zu externen Call-Services.
Was verlangt Art. 50 KI-VO konkret bei Telefon-Bots?
Der Anrufer muss erkennen koennen, dass er mit einer KI spricht. Ansage am Anfang mit dem Wort Assistent oder KI, jederzeitige Uebergabe an einen Menschen per Sprachkommando oder Tastendruck, keine Verschleierung durch menschliche Namen. Art. 4 KI-Kompetenzpflicht fuer Admins gilt seit 02.02.2025.
Wie startet man einen Voice-Bot-Piloten, ohne sich zu ueberfordern?
Einen klaren Use-Case waehlen, nicht drei parallel. In 60 Tagen machbar: Woche 1-2 Use-Case-Wahl und Anruf-Inventur, Woche 3 Tool-Entscheidung plus Anbieter-Demo, Woche 4-6 Setup und Dialog-Design mit maximal vier Entscheidungspunkten, Woche 7 internes Testing, ab Woche 8 Soft-Launch auf einer Nebennummer.
Service-Automatisierung starten?
DigiMan-Weiterbildung deckt Voice-Bots, Prompting und Compliance ab. 100 % über QCG förderfähig. 15 Minuten kostenloses Erstgespräch.