Speech-to-Text (STT)

Speech-to-Text ist eine Technologie, die gesprochene Sprache in geschriebenen Text umwandelt — auch bekannt als Spracherkennung.

Speech-to-Text (STT), auch Automatic Speech Recognition (ASR) genannt, wandelt gesprochene Sprache in Text um. In einem KI-Telefonassistenten ist STT die erste Verarbeitungsstufe: Der Anrufer spricht, das STT-System transkribiert das Gesagte in Text, und das Sprachmodell verarbeitet diesen Text weiter.

Die Herausforderung für die Schweiz: STT-Systeme müssen nicht nur Hochdeutsch, sondern auch Schweizerdeutsch verstehen. Züridütsch, Bärndütsch und Baseldytsch unterscheiden sich erheblich — und die meisten internationalen STT-Anbieter scheitern an diesen Dialekten. Moderne Modelle wie GPT-4o Transcribe haben die Schweizerdeutsch-Erkennung deutlich verbessert, erreichen aber nur dann gute Ergebnisse, wenn sie nicht auf eine einzelne Sprache fixiert werden.

Die Genauigkeit der Spracherkennung beeinflusst die gesamte Gesprächsqualität. Wenn das STT-System einen Namen falsch transkribiert, kann die KI nicht korrekt antworten. Deshalb setzen hochwertige KI-Telefonassistenten auf Rückfragen («Han ich das richtig verstande?») und Bestätigungsschleifen, um Fehler der Spracherkennung aufzufangen.

Verwandte Begriffe

helvetix.ai live erleben?