Britisches Start-up entwickelt KI-Stimme mit regionalem Akzent

Ein britisches Technologieunternehmen hat eine neue KI-Stimmenklonung entwickelt, die erstmals regionale Akzente aus dem Vereinigten Königreich realitätsnah nachbilden kann – ein deutlicher Schritt weg von den sonst üblichen Einheitsstimmen aus Nordamerika oder Südlondon.

Die Firma Synthesia hat dafür über ein Jahr lang eine eigene Datenbank mit britischen Dialekten aufgebaut – durch Studioaufnahmen und gesammeltes Online-Material. Das Ergebnis: ein Tool namens „Express-Voice“, das sowohl echte Stimmen klonen als auch synthetische Stimmen mit spezifischem Akzent erzeugen kann.

Anwendung findet die Technik etwa in E-Learnings, Verkaufsvideos oder Präsentationen – mit dem Ziel, nicht nur visuelle, sondern auch sprachliche Authentizität zu wahren.

„Wenn jemand seine Stimme digitalisieren lässt, will er oder sie auch den eigenen Akzent erhalten“, erklärt Youssef Alami Mejjati, Forschungsleiter bei Synthesia.

Das sei gerade für Kunden aus Großbritannien ein häufig geäußerter Wunsch – aber auch französischsprachige Kunden hätten bemängelt, dass viele KI-Stimmen „kanadisch“ klingen statt „parisisch“. Der Grund: Trainingsdaten großer US- oder chinesischer Anbieter sind oft auf nordamerikanische Sprecher ausgerichtet.

„Brummie“ schwerer als „Cockney“

Am schwierigsten sei es, seltene Akzente nachzubilden – wie etwa Brummie aus Birmingham oder bestimmte walisische Dialekte. Dort fehle es schlicht an genug Trainingsmaterial. Genau diese Vielfalt wolle Synthesia aber bewahren, betont Mejjati.

Sprachforscher und KI-Experten schlagen bereits länger Alarm: Immer mehr Dialekte und Sprachen verschwinden im digitalen Raum. Laut UNESCO gelten fast die Hälfte der heute noch gesprochenen Sprachen als gefährdet – viele davon sind online nicht präsent, geschweige denn in KI-Systemen repräsentiert.

„Sprachmodelle homogenisieren Sprache“, warnt KI-Berater Henry Ajder, der unter anderem Regierungen und Synthesia berät. Künftige KI-Systeme müssten mehr Rücksicht auf sprachliche Diversität nehmen – sonst könnten digitale Werkzeuge zum Verstärker kultureller Einfalt werden.

Zwischen Innovation und Missbrauch

Ein Wermutstropfen: Je besser solche KI-Stimmen werden, desto größer ist auch ihr Missbrauchspotenzial. Erst kürzlich tauchten AI-generierte Sprachnachrichten im Namen von US-Politikern auf – Stimmen, die fast nicht mehr von echten zu unterscheiden waren.

Synthesia betont, das eigene Tool sei nicht kostenlos verfügbar und durch Sicherheitsmechanismen gegen Hassrede und Missbrauch geschützt. Doch freie Open-Source-Tools zur Stimmenklonung verbreiten sich rasant – oft ohne jede Kontrolle.

Währenddessen geht ein US-Start-up den umgekehrten Weg: Sanas bietet Callcentern eine Software, die „nicht-amerikanische“ Akzente glättet, etwa von indischen oder philippinischen Mitarbeitenden – angeblich, um Diskriminierung durch Kunden zu reduzieren. Kritiker sehen darin jedoch eine digitale Auslöschung sprachlicher Identität.

In einer Welt, in der Sprache zunehmend von Algorithmen geformt wird, bleibt also die Frage: Klingt Zukunft vielfältig – oder eintönig?