Jedes Unternehmen hat eine Telefonansage. Die meisten klingen, als wären sie vor fünf Jahren mit einem günstigen Headset aufgenommen worden. Hintergrundgeräusche, ein unsicherer Tonfall, vielleicht ein leises Räuspern – Anrufer merken das sofort.
Gleichzeitig ist die Telefonansage oft der erste akustische Kontakt mit einem Unternehmen. Noch vor dem ersten Gespräch mit einem Mitarbeiter hört der Kunde eine Stimme und bildet sich ein Urteil. Professionell oder improvisiert? Modern oder veraltet?
KI-generierte Stimmen haben diesen Bereich grundlegend verändert. Heute lassen sich Telefonansagen in Studioqualität erstellen – ohne Tonstudio, ohne wochenlange Wartezeiten und ohne vierstellige Budgets. Dieser Guide zeigt, wie das konkret funktioniert.
Was ist eine KI-Telefonansage?
Eine KI-Telefonansage ist eine Audiodatei, die mithilfe von Text-to-Speech-Technologie (TTS) erzeugt wird. Sie schreiben einen Text, wählen eine Stimme, und die KI generiert daraus eine gesprochene Audiodatei – als MP3 oder WAV, direkt einsetzbar in Ihrer Telefonanlage.
Moderne TTS-Systeme arbeiten dabei mit neuronalen Netzwerken, die auf echten Sprachaufnahmen trainiert wurden. Das Ergebnis klingt nicht mehr nach Roboter, sondern nach einem professionellen Sprecher. Pausen, Betonungen und Satzmelodie werden automatisch erzeugt – und lassen sich bei guten Anbietern auch gezielt steuern.
Wichtig: Die Qualität variiert stark zwischen Anbietern. Entscheidend ist nicht nur die Technologie, sondern auch die Qualität der Stimmen, die Nachbearbeitung und die Eignung für den deutschsprachigen Markt.
Welche Arten von Telefonansagen gibt es?
Bevor Sie eine Telefonansage erstellen, sollten Sie wissen, welche Ansagetypen es gibt – denn jeder Typ hat eigene Anforderungen an Text, Tonfall und Länge.
Begrüßungsansage (Opening)
Der erste Kontakt. Der Anrufer hört diese Ansage, sobald er verbunden wird. Sie sollte kurz sein (10–15 Sekunden), den Firmennamen enthalten und den Anrufer orientieren. Beispiel: „Willkommen bei [Firma]. Sie werden gleich mit einem Mitarbeiter verbunden."
Warteschleifenansage (On-Hold)
Wenn alle Leitungen belegt sind. Hier ist die Herausforderung, den Anrufer nicht zu verlieren. Gute Warteschleifenansagen kombinieren Information mit angemessener Musik und wiederholen sich in sinnvollen Intervallen. Typische Länge: 30–60 Sekunden pro Durchlauf.
IVR-Menü (Sprachmenü)
„Für den Vertrieb drücken Sie die 1, für den Support die 2." IVR-Ansagen müssen besonders klar und strukturiert sein. Jede Menüoption braucht eine eindeutige Formulierung. Weniger ist hier mehr – maximal vier bis fünf Optionen, sonst steigt die Abbruchrate.
Abwesenheitsansage und Mailbox
Außerhalb der Geschäftszeiten oder wenn niemand erreichbar ist. Diese Ansagen sollten die Geschäftszeiten nennen, eine Alternative anbieten (E-Mail, Kontaktformular) und zum Hinterlassen einer Nachricht einladen.
Spezialansagen
Feiertage, Betriebsferien, technische Störungen, besondere Aktionen – Spezialansagen werden nur temporär eingesetzt. Gerade hier zeigt sich ein großer Vorteil von KI: Sie können diese Ansagen in Minuten erstellen und austauschen, statt jedes Mal ein Tonstudio zu buchen.
Schritt für Schritt: KI-Telefonansage erstellen
Schritt 1: Text schreiben
Der Text ist die Grundlage. Und hier passieren die meisten Fehler – nicht bei der Technik, sondern beim Inhalt.
- Kürze: Telefonansagen werden gehört, nicht gelesen. Jeder überflüssige Satz kostet Geduld. Eine Begrüßungsansage sollte unter 20 Sekunden liegen.
- Aktive Sprache: „Wir verbinden Sie" statt „Sie werden verbunden". Aktiv klingt freundlicher und direkter.
- Markenton treffen: Duzen oder Siezen? Locker oder förmlich? Die Ansage muss zur Unternehmensidentität passen.
- Eigennamen prüfen: Firmennamen, Produktnamen, Ortsnamen – schreiben Sie phonetisch, wie der Name gesprochen werden soll, falls die Schreibweise irreführend ist.
- Laut vorlesen: Bevor Sie den Text in die KI geben, lesen Sie ihn laut vor. Was sich holprig anhört, klingt auch per KI holprig.
Schritt 2: Stimme auswählen
Die Wahl der Stimme ist mindestens so wichtig wie der Text. Dabei gibt es einen entscheidenden Unterschied zwischen Anbietern: anonyme Stimmpools vs. benannte Sprecher.
Bei vielen Plattformen wählen Sie aus einer Liste generischer Stimmen – „Stimme 47, weiblich, deutsch". Sie wissen nicht, wer dahinter steht, und die Stimme kann sich jederzeit ändern oder verschwinden.
Bei stimmen.ai ist das anders: Jede KI-Stimme gehört einem echten, namentlich genannten Sprecher oder einer Sprecherin. Sie wählen bewusst eine Person – und können diese bei Bedarf auch für echte Studioaufnahmen buchen. Das schafft Konsistenz: Ihre Telefonansage, Ihr Erklärvideo und Ihr Imagefilm können von derselben Stimme gesprochen werden.
Schritt 3: Text in Audio umwandeln
Nach der Texteingabe und Stimmauswahl generiert die KI das Audio. Doch damit ist die Arbeit nicht getan. Hören Sie sich das Ergebnis kritisch an:
- Tempo: Zu schnell? Telefonansagen brauchen ein etwas langsameres Tempo als normale Sprache, weil die Audioqualität am Telefon geringer ist.
- Betonung: Werden wichtige Wörter richtig betont? Liegt der Fokus auf den richtigen Stellen?
- Pausen: Gibt es natürliche Atempausen? Besonders bei IVR-Menüs brauchen Anrufer kurze Denkpausen zwischen den Optionen.
- Aussprache: Werden Fachbegriffe, Abkürzungen und Eigennamen korrekt ausgesprochen?
Gute Anbieter ermöglichen es, diese Parameter anzupassen. Bei stimmen.ai wird das Audio zusätzlich professionell nachbearbeitet – Rauschentfernung, Pegelanpassung, Optimierung für Telefonsysteme.
Schritt 4: Audio exportieren und einbinden
Das fertige Audio muss in Ihre Telefonanlage. Dabei sind zwei Dinge relevant:
- Dateiformat: Die meisten Telefonanlagen akzeptieren MP3 (128 kbps) oder WAV (16-bit, 8 kHz oder 16 kHz). Fragen Sie Ihren Telefonanlagen-Anbieter nach den genauen Spezifikationen.
- Dateigröße: Manche Systeme haben Limits (z. B. 5 MB). Kurze, komprimierte MP3-Dateien sind in der Regel unproblematisch.
- Upload: Bei Cloud-Telefonanlagen (Sipgate, 3CX, Placetel, NFON etc.) laden Sie die Datei über das Web-Interface hoch. Bei älteren Anlagen kann ein Import über USB oder SD-Karte nötig sein.