IT versus Babylon – verbesserte Spracherkennung im Rampenlicht der Technik

Die aktuellen Entwicklungen und Trends auf diesen hochdynamischen Markt standen im Fokus einer internationalen Tagung, zu der die Informationstechnische Gesellschaft im VDE (ITG) zahlreiche Experten nach Aachen eingeladen hatte.

Im Automobil sind die Anwendungsmöglichkeiten für Sprachausgaben in den letzten Jahren stetig gewachsen. Ein Ende dieses Trends zeichnet sich nicht ab, denn die Anwendungsmöglichkeiten sind vielfältig. Die Palette reicht vom Reiseführer, der für sämtliche Sehenswürdigkeiten Beschreibungen im Audio-Format bereit hält bis hin zu Stauinformationen, die dem Fahrer erst vorgelesen werden, bevor die Navigation eine neue Route berechnet.

„Eine neue Anforderung an die Sprachausgabe im Kfz stellt die multilinguale Ausgabe dar“, resümiert Bärbel Jeschke von der Harman/Becker Automotive Systems in Ulm. Diese benötige man vor allem für das Navigieren zu ausländischen Zielen oder für die Auswahl von MP3 Titeln. Eine besondere Herausforderung sei der Sprachenwechsel mitten im Satz. Als technische Lösung werde derzeit ein Phonemmapping verwendet, da das Umschalten zwischen verschiedenen Sprachen und Stimmen aus Gründen der Ladezeit technisch nicht möglich sei.

Signalrekonstruktionen verbessern Sprachsignale

Mit einem Verfahren zur Sprachsignalverbesserung hat sich Jeschkes Kollege Mohamed Krini, bei Harman/Becker Automotive Systems für den Bereich Acoustic Speech Enhancement zuständig, beschäftigt. „Werden Telefonate über eine Freisprechanlage aus dem Fahrzeug geführt, so überlagern sich der Sprache des lokalen Gesprächspartners störende Hintergrundgeräusche“, erläutert der Experte. Um die Sprachqualität zu verbessern, setze man Geräuschreduktionsverfahren ein, die in der Regel auf dem Prinzip einer zeitvarianten, spektralen Gewichtung basierten. Bei guten bis mittleren Signal-zu-Geräusch-Abstand könne man auf diese Weise gute Ergebnisse erzielen.

„In lauten Geräuschszenarien funktionieren die zurzeit verwendeten Standardalgorithmen jedoch nicht mehr zufrieden stellend und sollten daher verbessert werden“, ergänzt Krini. Zu diesem Zweck habe Harman/Becker Automotive Systems ein neues Verfahren zur Verbesserung von stark gestörten Sprachsignalen entwickelt, das im Wesentlichen aus zwei Algorithmenteilen bestehe: einer Geräuschreduktion und einer partiellen Sprachrekonstruktion. Das Prinzip der partiellen Rekonstruktion basiere darauf, jene Zeit-Frequenz-Bereiche, in welchen das Signal-zu-Geräusch-Verhältnis gering ist, zunächst zu detektieren und dort das Sprachsignal zu synthetisieren. Durch das neue Verfahren sei es möglich, die stark gestörten Nutzsignalanteile wiederherzustellen und die Sprachqualität merklich zu verbessern.

Visualisierung spektraler Merkmale

Mit einem neuen Verfahren zur Spracherkennung sorgte Hans-Günter Hirsch vom Fachbereich Elektrotechnik und Informatik der Hochschule Niederrhein in Krefeld für ein viel beachtetes Thema der Tagung. Zur Modellierung sprachlicher Einheiten wie Wörtern oder Lauten wird bei den meisten heutzutage eingesetzten Systemen zur automatischen Spracherkennung der mathematische Ansatz des so genannten Hidden Markov Modells (HMM) verwendet. Bei diesem Verfahren wird die jeweilige sprachliche Einheit als eine zeitliche Folge kurzer sprachlicher Abschnitte modelliert.

„Es ist uns nunmehr gelungen, die in einem HMM enthaltenen spektralen Merkmale zu bestimmen und zu visualisieren“, erläutert Hirsch. Mit den daraus gewonnenen Ergebnissen könnten neue Verfahren zur Spracherkennung bei gleichzeitigem Vorhandensein bestimmter Störeinflüsse abgeleitet werden.

Media Contact

Rolf Froböse Rolf Froböse

Weitere Informationen:

http://www.vde.com

Alle Nachrichten aus der Kategorie: Kommunikation Medien

Technische und kommunikationswissenschaftliche Neuerungen, aber auch wirtschaftliche Entwicklungen auf dem Gebiet der medienübergreifenden Kommunikation.

Der innovations-report bietet Ihnen hierzu interessante Berichte und Artikel, unter anderem zu den Teilbereichen: Interaktive Medien, Medienwirtschaft, Digitales Fernsehen, E-Business, Online-Werbung, Informations- und Kommunikationstechnik.

Zurück zur Startseite

Kommentare (0)

Schreiben Sie einen Kommentar

Neueste Beiträge

Neue universelle lichtbasierte Technik zur Kontrolle der Talpolarisation

Ein internationales Forscherteam berichtet in Nature über eine neue Methode, mit der zum ersten Mal die Talpolarisation in zentrosymmetrischen Bulk-Materialien auf eine nicht materialspezifische Weise erreicht wird. Diese „universelle Technik“…

Tumorzellen hebeln das Immunsystem früh aus

Neu entdeckter Mechanismus könnte Krebs-Immuntherapien deutlich verbessern. Tumore verhindern aktiv, dass sich Immunantworten durch sogenannte zytotoxische T-Zellen bilden, die den Krebs bekämpfen könnten. Wie das genau geschieht, beschreiben jetzt erstmals…

Immunzellen in den Startlöchern: „Allzeit bereit“ ist harte Arbeit

Wenn Krankheitserreger in den Körper eindringen, muss das Immunsystem sofort reagieren und eine Infektion verhindern oder eindämmen. Doch wie halten sich unsere Abwehrzellen bereit, wenn kein Angreifer in Sicht ist?…

Partner & Förderer