Auf einen Blick

KI-Sprachassistenten uebernehmen Terminvereinbarung, Vorqualifizierung und After-Hours-Rueckrufe. Drei Tool-Klassen, wirtschaftlich ab 300 Minuten pro Monat. Pflicht: Transparenz nach Art. 50 KI-VO, Art. 4 Schulung seit 02.02.2025.

Die Telefonzentrale ist im Mittelstand 2026 einer der großen ungenutzten Hebel für KI. Eingehende Anrufe, Terminvereinbarungen, Vorqualifizierungen und Rückruflogik fressen in vielen Firmen 1-3 Vollzeitäquivalente - und trotzdem geht in Stoßzeiten regelmäßig etwas verloren. KI-Sprachassistenten (Voice-Bots) können einen großen Teil dieser Arbeit übernehmen, ohne dass Anrufer das als Zumutung empfinden. Die Technologie ist 2026 gut genug. Die offenen Fragen sind nicht mehr "funktioniert das", sondern "wo hört die KI auf und übergibt an einen Menschen" und "wie setzt man das DSGVO- und AI-Act-konform auf".

Dieser Artikel zeigt die drei Tool-Klassen, die typischen Use-Cases, was Art. 50 KI-VO zur Transparenzpflicht verlangt, realistische Kosten pro Minute - und einen 60-Tage-Pilotplan für die eigene Zentrale.

Drei Tool-Klassen

Der Markt für Voice-AI hat sich 2025 und 2026 stark sortiert. Drei Klassen von Tools haben sich herausgebildet, die sich in Integrationstiefe, Flexibilität und Kosten unterscheiden.

Native IVR- und PBX-Extensions

Klassische Telefonanlagen (3CX, Placetel, sipgate, Telekom-Cloud-Varianten) haben inzwischen fast alle KI-Erweiterungen. Hier bleibt die bestehende IVR-Logik - "drücken Sie die 1 für..." - aber die Menüs werden intelligenter. Der Anrufer kann "ich brauche einen Termin" sagen und landet direkt bei der richtigen Routingregel.

Stärken: einfaches Setup, bleibt in einer Rechnung mit deinem PBX-Anbieter, bekannte Ausfallsicherheit. Datenschutz ist oft klar geregelt (EU-Hosting über den PBX-Anbieter). Grenzen: Die "KI" ist hier meist eher bessere Spracherkennung. Freie Dialoge, Terminvereinbarung oder Vorqualifizierung gehen nur rudimentär.

Voice-AI-Plattformen

Voice-AI-Plattformen sind die flexibelste Variante. Anbieter wie VAPI, Retell, Synthflow, Vocode und ElevenLabs Voice AI (laut eigenen Angaben der jeweiligen Anbieter, Stand April 2026) bieten Baukästen, mit denen du einen Voice-Bot mit beliebigem Dialog-Flow, frei wählbaren Stimmen und eigenen Tool-Integrationen bauen kannst. Unter der Haube läuft ein Sprach-Erkennungs-Modell, ein LLM für die Antwortlogik und ein Text-to-Speech-Modell für die Ausgabe.

Stärken: Flexibilität, natürlich klingende Stimmen, freie Dialoge, einfache Anbindung an CRM, Kalender oder Ticket-Systeme über Webhooks. Grenzen: du baust die Logik selbst - das ist nicht "Plug and Play". DSGVO und Datenregion müssen aktiv geprüft werden, die meisten dieser Anbieter sind US-basiert. EU-Hosting ist oft verfügbar, muss aber vertraglich abgesichert werden. Kosten pro Minute sind üblicherweise verbrauchsabhängig.

Customer-Service-Plattformen mit Voice-Modul

Größere Kundenservice-Plattformen (Zendesk, Freshdesk, Salesforce Service Cloud und ähnliche - laut eigenen Angaben der Anbieter, Stand April 2026) haben Voice-Module integriert, die sich nahtlos in das Ticket-System einfügen. Der Bot nimmt den Anruf an, löst einfache Fälle, öffnet bei Bedarf ein Ticket, routet zum Menschen.

Stärken: Tiefe Integration mit dem bestehenden Support-Stack, einheitliches Reporting, DSGVO meist im Paket geregelt. Grenzen: teurer, weniger flexibel für Nicht-Support-Use-Cases, und wenn du die Plattform nicht sowieso einsetzt, ist der Einstiegsaufwand hoch.

Die wichtigsten Use-Cases im Mittelstand

Nicht jeder Anwendungsfall eignet sich für Voice-AI. Drei Use-Cases haben sich im Mittelstand als besonders belastbar erwiesen.

Terminvereinbarung

Der Klassiker. Dienstleister - von der Zahnarztpraxis über den Kfz-Betrieb bis zur Handwerkerfirma - bekommen Anrufe, bei denen der einzige Zweck die Terminvereinbarung ist. Die KI checkt den Kalender, schlägt Termine vor, bestätigt, sendet SMS oder E-Mail mit Details.

Durchschnittliche Handling-Zeit: 60-120 Sekunden. Abschlussquote (ohne Übergabe an Mensch): 70-90 Prozent. Wenn der Kalender sauber integriert ist und die Dialog-Flow nicht über 3-4 Fragen hinausgeht, fühlt sich das für Anrufer angemessen an.

Vorqualifizierung eingehender Leads

Eingehende Anrufe auf Marketing- oder Verkaufs-Nummern werden von der KI vorqualifiziert. Der Bot fragt nach Firma, Rolle, Bedarf, Zeitrahmen. Diese Daten landen im CRM - und der Mensch wird nur bei qualifizierten Leads gestört.

Das entlastet Vertrieb, vermeidet Ghosting nach Feierabend und bringt auch bei hohem Anrufvolumen ein konsistentes Pre-Qualification-Niveau. Es senkt die Close-Rate nicht, solange die Übergabe an den Menschen innerhalb von wenigen Stunden passiert.

Rückruflogik und Erreichbarkeit außerhalb der Geschäftszeiten

Der Bot nimmt an, wenn niemand sonst kann. Er nimmt ein Anliegen auf, sammelt Kontaktdaten, priorisiert grob ("dringend / kann warten"), und legt im CRM oder Ticket-System einen Rückruftermin an. Am nächsten Morgen kennt euer Team die Warteschlange - inklusive ersten Sortierungen.

Das ist besonders stark für Handwerk, Immobilienverwaltung und Dienstleister mit klassischen Öffnungszeiten. Die Alternative ist entweder ein Anrufbeantworter oder ein externer Call-Service. Voice-AI ist die günstigere, besser integrierte Variante.

Art. 50 KI-VO: Transparenzpflicht

Ein sensibles Thema. Artikel 50 der EU KI-Verordnung regelt, dass KI-Systeme, die mit natürlichen Personen interagieren, dies offen kommunizieren müssen. Das heißt: der Anrufer muss wissen oder unmittelbar erkennen können, dass er mit einer KI spricht. Die Pflicht gilt für KI-Systeme ab August 2026 vollumfänglich (Art. 50 ist Teil der General-Purpose- und allgemeinen Transparenzregeln).

Praktisch bedeutet das:

Die KI-Kompetenzpflicht nach Art. 4 KI-VO gilt seit 2. Februar 2025. Jeder Mitarbeiter, der den Voice-Bot administriert oder pflegt, braucht eine dokumentierte KI-Schulung. Im Digital Omnibus Trilog am 28. April 2026 wurde über Verschiebungen einzelner Fristen verhandelt; Art. 4 war bis zuletzt nicht Teil der Verschiebungspläne.

DSGVO-Bewertung

Voice-AI ist datenschutzrechtlich nicht trivial. Drei Punkte prüfst du vor dem Live-Gang:

  1. Auftragsverarbeitungsvertrag: Mit dem Voice-AI-Anbieter, mit dem TTS-Anbieter falls separat, und mit dem LLM-Anbieter falls eigenständig. In Plattformen ist das meist gebündelt.
  2. Aufzeichnung von Gesprächen: Wenn der Bot das Gespräch mitschneidet (für Quality-Review, Protokoll, Transkript), muss das am Anfang angekündigt werden. Aufbewahrungsfrist klar definieren.
  3. Datenregion: EU-Hosting ist Pflicht. Wenn der Anbieter US-basiert ist, muss EU-US Data Privacy Framework greifen und die Transit-Datenverarbeitung in der EU erfolgen. Stand April 2026 ist das DPF weiterhin in Kraft, aber unter Druck.

Ein Betriebsrat muss bei Themen, die Mitarbeiter betreffen (zum Beispiel Anrufe von Bewerbern, interne Hotlines), eingebunden werden. Es ist kein Hexenwerk, aber es ist ein Prozess-Thema.

Realistische Kosten pro Minute

Die Preismodelle sind unterschiedlich. Voice-AI-Plattformen rechnen üblicherweise pro Minute ab. Native PBX-Extensions haben Pauschalpreise mit inkludierten Minuten. Customer-Service-Plattformen sind meist User-basiert plus Voice-Modul-Aufschlag.

Illustrative Bandbreite (Stand April 2026, ohne Setup-Kosten):

SetupKosten pro MinuteEinmalige KostenPassend für
Native PBX-Extension0,05-0,15 EUR0-1.000 EUREinfache IVR-Use-Cases, keine Dialoge
Voice-AI-Plattform (self-built)0,15-0,40 EUR3.000-15.000 EUR AufbauTerminvereinbarung, Vorqualifizierung, eigene Logik
Voice-AI-Plattform (managed)0,30-0,60 EUR5.000-20.000 EUR Aufbau und TrainingKomplexere Dialoge, wenig interne Kapazität
Customer-Service-Plattform Voice-Modul0,20-0,50 EUR plus Lizenzje nach PlattformBestandskunden der Plattform

Enterprise-Pricing wird verhandelt. Preise ohne Gewähr und branchenüblichen Rabatten.

Zum Vergleich: ein extern beauftragter Call-Service kostet in Deutschland 2026 etwa 1,50-3,00 EUR pro Minute oder als Monats-Pauschale 800-2.000 EUR für kleinere Volumina. Ein interner Vollzeit-Mitarbeiter kostet voll belastet ca. 50-60 EUR pro Stunde. Der Voice-Bot ist bei Volumen ab ca. 300 Minuten pro Monat wirtschaftlich konkurrenzfähig und skaliert ohne proportional steigende Kosten.

Grenzen: wann der Mensch noch braucht

Voice-AI hat 2026 klare Grenzen. Drei Situationen gehören eindeutig dem Menschen:

Die Kunst beim Design ist die Übergabe-Logik. Der Bot muss erkennen, wann er überfordert ist, und sauber übergeben - mit Kontext-Protokoll an den Menschen, damit der Anrufer nichts wiederholen muss. Das ist der Punkt, an dem schlechte Setups auffliegen: der Anrufer muss alles nochmal erzählen, und dann ist es eine Zumutung.

60-Tage-Pilotplan

So baust du den ersten Voice-Bot systematisch auf. Für eine Firma mit 20-100 Mitarbeitenden und einer klassischen Zentrale.

  1. Woche 1-2: Use-Case-Wahl. Termin, Vorqualifizierung oder After-Hours-Rückruf - einen klaren Use-Case auswählen, nicht drei parallel. Analyse der letzten 200 eingehenden Anrufe: wie viele Prozent passen in den gewählten Use-Case?
  2. Woche 3: Tool-Entscheidung. PBX-Extension, Voice-AI-Plattform oder Customer-Service-Plattform? AVV, Datenregion, Kosten vergleichen. Anbieter-Demo einholen.
  3. Woche 4-6: Setup und Dialog-Design. Die Dialog-Flow aufschreiben (!), dann im Tool bauen. Maximal 4-6 Entscheidungspunkte, jederzeit "zum Menschen" erreichbar. CRM- oder Kalender-Integration.
  4. Woche 7: Internes Testing. Kollegen rufen den Bot an und probieren ihn aus. Jeden Dialog-Fehler dokumentieren. Ton und Wortwahl anpassen.
  5. Woche 8: Soft-Launch mit ausgewähltem Nummernkreis (zum Beispiel nur die Marketing-Hotline, noch nicht die Hauptnummer). Tägliches Review der ersten 50 Calls.
  6. Woche 9: Feinschliff. Häufigste Fehl-Routings beheben. Tonalität nachjustieren. Transkript-Protokolle an die Fachabteilungen geben.
  7. Woche 10+: Rollout auf Hauptnummer oder weitere Einstiegspunkte. Auswertung nach KPIs: Abschluss-Rate, Übergabe-Rate, Kundenzufriedenheit (kurze SMS-Umfrage 24h nach Call), Kosten pro gelöstem Anliegen.

Ein nüchterner Pilot läuft in diesem Zeitrahmen. Rechne mit Rückschritten: der Bot wird beim ersten Live-Einsatz Dinge falsch machen. Das ist normal. Wichtig ist, dass du die Lerneschleife eingebaut hast - tägliches Transkript-Review in den ersten zwei Wochen, dann wöchentlich.

Was diese Woche tun

Wenn du mit Voice-AI starten willst, drei konkrete Schritte:

Der Voice-Bot ersetzt die Zentrale nicht. Er entlastet sie. Das ist der wichtige Unterschied. Wer ihn als "dann können wir die Zentrale sparen" verkauft, bekommt ein schlechtes Produkt und unzufriedene Anrufer. Wer ihn als "wir nehmen den Boden-Last weg, damit unsere Menschen die echten Fälle machen" aufsetzt, gewinnt.

Häufige Fragen

Fuer welche Anrufe eignet sich ein KI-Sprachassistent ueberhaupt?

Am besten fuer Terminvereinbarung, Lead-Vorqualifizierung und Rueckrufaufnahme ausserhalb der Geschaeftszeiten. Typische Handling-Zeit 60 bis 120 Sekunden, Abschlussquote 70 bis 90 Prozent. Emotionale Beschwerden, komplexe Technik-Fragen und Preisverhandlungen gehoeren dagegen weiter dem Menschen.

Was kostet ein Voice-Bot pro Minute realistisch?

Native PBX-Extensions liegen bei 0,05 bis 0,15 Euro pro Minute. Voice-AI-Plattformen wie VAPI oder Retell bei 0,15 bis 0,40 Euro, managed zwischen 0,30 und 0,60 Euro. Setup-Kosten rangieren je nach Komplexitaet von 0 bis 20.000 Euro. Ab 300 Minuten pro Monat ist ein Voice-Bot wirtschaftlich konkurrenzfaehig zu externen Call-Services.

Was verlangt Art. 50 KI-VO konkret bei Telefon-Bots?

Der Anrufer muss erkennen koennen, dass er mit einer KI spricht. Ansage am Anfang mit dem Wort Assistent oder KI, jederzeitige Uebergabe an einen Menschen per Sprachkommando oder Tastendruck, keine Verschleierung durch menschliche Namen. Art. 4 KI-Kompetenzpflicht fuer Admins gilt seit 02.02.2025.

Wie startet man einen Voice-Bot-Piloten, ohne sich zu ueberfordern?

Einen klaren Use-Case waehlen, nicht drei parallel. In 60 Tagen machbar: Woche 1-2 Use-Case-Wahl und Anruf-Inventur, Woche 3 Tool-Entscheidung plus Anbieter-Demo, Woche 4-6 Setup und Dialog-Design mit maximal vier Entscheidungspunkten, Woche 7 internes Testing, ab Woche 8 Soft-Launch auf einer Nebennummer.

Service-Automatisierung starten?

DigiMan-Weiterbildung deckt Voice-Bots, Prompting und Compliance ab. 100 % über QCG förderfähig. 15 Minuten kostenloses Erstgespräch.

DigiMan-Weiterbildung ansehen WhatsApp