Heise 24.12.2025
06:00 Uhr

Google Echtzeit-Übersetzer: Mehr als Wort zu Wort Übersetzungen


Googles Echtzeit-Übersetzer schaut voraus und denkt das Gesprochene mit, erklärt Niklas Blum, Director Product Management.

Google Echtzeit-Übersetzer: Mehr als Wort zu Wort Übersetzungen

Mitten im Meeting Englisch sprechen, während das Gegenüber die Worte in perfektem Spanisch hört – in Echtzeit. Was lange als Science-Fiction galt, rollt Google nun mit Meet und auf Pixel-Geräten aus. Hinter der Funktion steckt dieselbe KI, die auch Gemini antreibt – und ein komplexes Zusammenspiel spezialisierter Übersetzungsmodelle und generativer Sprach-Module.

Wir haben mit Googles Director Product Management, Niklas Blum, über die zugrunde liegende Technik gesprochen: Wie funktioniert die End-to-End-Sprachübersetzung, die sogar die Originalstimme erhält? Wie arbietet das internationale Team? Und wo liegen die größten Hürden bei der Übersetzung von gesprochener Sprache?

Die Transformer-Blöcke ermöglichen es dem Modell, selbstständig zu entscheiden, wann die Übersetzung ausgegeben wird. Basierend auf den Trainingsdaten ist das Modell in der Lage, über reine Wort-für-Wort-Übersetzungen hinauszugehen. Das ist besonders hilfreich bei Redewendungen oder dem Erkennen von Eigennamen. Begriffe wie die „Golden Gate Bridge” werden nicht übersetzt.

Generell haben die Fortschritte bei der KI-Audioverarbeitung und der Modellqualität zuletzt große Sprünge gemacht. Das dürfte der Grund sein, weshalb branchenweit eine zunehmende Integration von Sprachübersetzung in verschiedene Produkte stattfindet.

Technisch gesehen funktioniert die Übersetzungsfunktion ähnlich wie die bestehende Audiokodierung, nur mit der zusätzlichen Funktion der Übersetzung. Jeder Ton, der an das Modell gesendet wird, erzeugt eine Ausgabe. Das Modell arbeitet mit einem 10-Sekunden-Kontextfenster und hat außerhalb dieses Fensters keine semantische Wahrnehmung des gesprochenen Inhalts.

(emw)