Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Neues Verfahren zur Rauschunterdrückung bei Sprachübertragung entwickelt

24.07.2003


Die zwei verschiedenen Phoneme "i" und "j" weisen erstaunlich stabile Schwingungsmuster auf. Der gezeigte Zeitausschnitt entspricht etwa 45 Millisekunden (tausendstel Sekunden).

Foto: Max-Planck-Institut für Physik komplexer Systeme


Analyse des Testsatzes "Scusi, Lei é Allesandra Janssen?" (Entschuldigung, sind Sie Alexandra Janssen?). Oben ist das analysierte Sprechsignal zu sehen, die Zeitachse verläuft von links nach rechts. Der gesamte Ausschnitt umfasst zwei Sekunden. Unten erscheint der Rekurrenzplot des Signals. Die Phoneme mit einander stark gleichenden Wellenzügen liegen in den "Zebrastreifen-Bäuchen"; die Einschnitte markieren ihre Grenzen.

Foto: Max-Planck-Institut für Physik komplexer Systeme


Mit einem Verfahren aus der Chaostheorie unterdrücken Forscher des Max-Planck-Instituts für Physik komplexer Systeme Störungen bei der Sprachübertragung / Neue MaxPlanckForschung erschienen
Wenn es darum geht, Sprache technisch zu verarbeiten und zu übertragen, wird Rauschen zu einem erheblichen Störfaktor. Prof. Holger Kantz und seine Mitarbeiter am Max-Planck-Institut für Physik komplexer Systeme in Dresden haben ein völlig neues Verfahren zur Rauschunterdrückung erfunden: Es basiert auf der Chaostheorie, ist mittlerweile patentiert und eignet sich besonders als Vorstufe für automatische Spracherkennungssysteme. Über diese Methode berichtet MaxPlanckForschung in ihrer neuesten Ausgabe (2/2003).



Jeder kennt das Problem: Telefoniert man mit einem Autoinsassen, geht das Gesagte bisweilen völlig im Fahrgeräusch unter. Das ist besonders störend, wenn sich das Rauschen laufend verändert. Die heute üblichen Verfahren zur Rauschunterdrückung stoßen just dann an ihre Grenzen, wenn dies permanent und sprunghaft geschieht. Zeitliche Veränderungen sind die Spezialität der Forscher am Max-Planck-Institut für Physik komplexer Systeme in Dresden. Der theoretische Physiker Holger Kantz leitet dort die Arbeitsgruppe "Nichtlineare Dynamik und Zeitreihenanalyse": Er und seine Mitarbeiter rücken solchen Fragestellungen mit mathematischen Werkzeugen der Chaostheorie zu Leibe und haben ein Rauschunterdrückungssystem nach einem völlig neuen Prinzip entwickelt. Dieses System filtert Rauschen auch dann sehr effektiv heraus, wenn es zeitlich stark schwankt. Im Zuge ihrer Entwicklungsarbeit untersuchten die Dresdener Physiker verschiedene Stimmsignale auf Merkmale, die ein mathematischer Algorithmus wiedererkennen kann. Dazu verwendeten sie CDs mit Sprachkursen.

Rauschen steckt immer schon im Eingangssignal, das technische Kommunikationssysteme weiter verarbeiten müssen - sei es ein Handy oder ein Sprachcomputer für das Telefon-Banking. In diesem Eingangssignal überlagert das Rauschen als Störsignal das Nutzsignal der Sprache. Diese beiden Signalanteile verhalten sich wie zwei Farben: Es ist leicht, beide zu mischen - doch extrem schwer, sie danach wieder zu trennen. Genau das muss ein Rauschunterdrückungssystem aber schaffen. Beim Kassettenrekorder lässt sich das Problem noch leicht lösen, denn ein Magnetband rauscht monoton. Die Ingenieure müssen das Rauschsignal nur einmal im Labor ausmessen und können dann ihr System darauf optimieren.

Völlig anders ist die Situation bei der Sprachübertragung im Alltag: Der Sprecher kann sich in einer lärmenden Fabrikhalle oder in einem stillen Wald aufhalten. Also muss das System ein Rauschsignal bekämpfen, das es nicht von vornherein kennt und das sich sehr plötzlich ändern kann. Solche unvorhersehbaren Signale sind schwer zu beherrschen; die Physiker nennen sie nicht-deterministisch.

Die Methoden, die heute in der Telefonie, bei Hörgeräten oder in der automatischen Spracherkennung Verbreitung finden, beruhen auf Erfahrungswerten und ziehen einfach ein durchschnittliches, breitbandiges Rauschen vom Gesamtsignal ab. Diese starre Filterfunktion kommt an ihre Grenzen, sobald sich die Charakteristik des Rauschens während des Sprechens stark verändert - etwa dann, wenn ein Autofahrer eine Panne hat und neben einer viel befahrenen Straße mit seinem Handy den Pannendienst anruft: Der Gesprächspartner hört die vorbeifahrenden Autos als stark an- und wieder abschwellendes Rauschen.

Solche Situationen beherrscht das viel flexiblere Verfahren der Dresdener Physiker. Dahinter steckt zwar viel Mathematik, doch Kantz erklärt das Grundprinzip an einem relativ einfachen Beispiel: "Stellen Sie sich vor, Sie hätten mehrere Exemplare einer klassischen Vinyl-Schallplatte mit exakt der gleichen Information darauf und jede dieser Schallplatten hätte an unterschiedlichen Stellen Kratzer oder andere Fehler, die für individuelle Störsignale sorgen." Würde man nun alle Schallplatten zum exakt gleichen Zeitpunkt starten und ihre Signale überlagern, würde Folgendes passieren: Die eigentliche Information - ob Sprache oder Musik - würde sich addieren, also verstärken. Anders wäre das beim Rauschen, dessen Signale von Platte zu Platte zufällig variieren und sich deshalb nicht konstruktiv überlagern. Mittelt man nun das addierte Signal, würde der Rauschpegel mit einer wachsenden Zahl von Schallplatten sinken.

Verfahren nach diesem Prinzip werden schon bei Freisprechanlagen in Autos oder Hubschraubern eingesetzt. Dort übernehmen mehrere im Innenraum montierte Mikrophone die Rolle der Schallplatten: Jedes Mikro empfängt ein anders eingefärbtes Rauschen, das sich aus dem Gesamtsignal aller Mikrophone herausmitteln lässt. Handys und viele andere Systeme arbeiten jedoch nur mit einem einzigen Mikro - und damit entfällt diese elegante Lösung.

Um dieses Problem zu knacken, wenden die Max-Planck-Physiker die Theorie des "deterministischen Chaos" an. Sie gestattet, in Systemen mit scheinbar rein chaotischem Verhalten wiederkehrende Strukturen aufzudecken. Die Forscher fragten sich, ob es auf der Zeitachse des Sprachflusses zu einem gerade produzierten Signal ein zweites in der Vergangenheit gibt, das dem ersten stark ähnelt: Ein solches "redundantes" Signal könnte dann die Rolle der zweiten Schallplatte übernehmen, also dem eben eingetroffenen Signal überlagert werden und so den Rauschpegel halbieren. Mit weiteren redundanten Signalen aus der Vergangenheit ließe sich der Rauschpegel sogar noch tiefer drücken.

Um dabei die Übertragung nicht zu lange zu verzögern, sucht das Dresdener Verfahren nur die sehr nahe Vergangenheit nach vergleichbaren Mustern ab. Dafür geeignete Zeitabschnitte bieten die Laute, aus denen wir Worte formen. Das Aussprechen eines solchen Phonems dauert in der Regel nicht länger als 200 Millisekunden (eine Fünftelsekunde). Den Schlüssel für ihren Algorithmus fanden Kantz und seine Mitarbeiter in Vokalen und stimmhaften Konsonanten; beide bilden erstaunlich gleichmäßige Schwingungsmuster, die über viele Millisekunden hinweg stabil sind.

Abbildung 1 demonstriert das für die beiden Laute "i" (oben) und "j" (unten). "Die Messkurve zeigt, wie gut sich die Wellen in so einem Phonem wiederholen," sagt Holger Kantz. Das erlaube es dem Algorithmus, einen typischen Wellenzug aufzunehmen und dann auf der Zeitachse rückwärts zu verschieben: Immer dann, wenn er mit einem früheren weitgehend übereinstimmt, entsteht ein maximales Signal. Übereinander gelagert, können diese vergleichbaren Abschnitte die Aufgabe der zwei Schallplatten übernehmen.

Die Dresdener Physiker untersuchten zunächst Signale ohne Störung, um zu sehen, ob ihr System überhaupt solche Signalwiederholungen aufspüren kann. Dabei half ihnen ein so genannter Rekurrenzplot. Das ist eine Art Landkarte für Sprachsignale, wie sie Abbildung 2 zeigt: Im oberen Fenster sieht man das Sprachsignal als physikalische Schwingung; es entspricht Abbildung 1, doch ist die Zeitachse hier viel stärker gequetscht. Interessant ist das "Zebramuster" im unteren Fenster des Plots. Was völlig abstrakt aussieht, ist im Prinzip einfach zu verstehen: Von links nach rechts schreitet die Zeit im gleichen Takt wie im oberen Fenster voran. Bewegt man sich im Plot senkrecht zu dieser Zeitachse, folgt man der wachsenden zeitlichen Verschiebung eines herausgegriffenen Wellenzugs. Immer dann, wenn dieser sich einem sehr ähnlichen Wellenzug in der Vergangenheit überlagert, macht das System einen Punkt im Rekurrenzplot. Die Muster zeigen damit die Ausdehnung eines Phonems: Wo sich viele Punkte übereinander türmen, gibt es viele ähnliche Wellen.

Um nun ihr neues System zu testen, mischte die Gruppe um Kantz Rauschen in das saubere Sprachsignal. Obwohl das verrauschte Signal physikalisch völlig verändert war, zeigte sich, dass der Rauschunterdrückungs-Algorithmus tatsächlich ähnliche Wellenzüge zuverlässig aufspürt und das ursprüngliche Sprachsignal erstaunlich gut aus dem Frequenzchaos herausfiltert.

Vergleichsmessungen beweisen, dass das Dresdener System auf Anhieb mit den modernsten Rauschunterdrückungs-Algorithmen mithalten kann. Weitere Optimierung könnte die Leistungsfähigkeit des weltweit patentierten Verfahrens noch erheblich steigern. Allerdings hat es einen Nachteil: Der Vergleich mit der Vergangenheit verzögert die Übertragung des Sprechsignals um ein Phonem, also etwa um eine Fünftelsekunde. Beim Telefonieren kann das stören. Aus diesem Grund eignet sich das Verfahren vor allem für die automatische Spracherkennung und könnte dort eine weitere Stärke ausspielen: die Fähigkeit, Grenzen einzelner Phoneme sehr scharf zu erkennen. Damit haben die Algorithmen heutiger Spracherkennungssysteme große Schwierigkeiten.

Originalveröffentlichung:

H. Kantz, R. Hegger, L. Matassini
Noise reduction for human voice by local projections in reconstructed phase spaces
IEEE Transactions on Circuits and Systems I, 48, 1454 (2001)

Weitere Informationen erhalten Sie von:

Prof. Holger Kantz
Max-Planck-Institut für Physik komplexer Systeme, Dresden
Tel.: 0351 - 871-2216, Fax.: -1999
E-Mail: kantz@mpipks-dresden.mpg.de

Prof. Holger Kantz | Max-Planck-Gesellschaft
Weitere Informationen:
http://www.maxplanck.de/bilderBerichteDokumente/multimedial/mpForschung/index.html
http://www.mpg.de

Weitere Nachrichten aus der Kategorie Physik Astronomie:

nachricht Proteintransport - Stau in der Zelle
24.03.2017 | Ludwig-Maximilians-Universität München

nachricht Neuartige Halbleiter-Membran-Laser
22.03.2017 | Universität Stuttgart

Alle Nachrichten aus der Kategorie: Physik Astronomie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Wegweisende Erkenntnisse für die Biomedizin: NAD⁺ hilft bei Reparatur geschädigter Erbinformationen

Eine internationale Forschergruppe mit dem Bayreuther Biochemiker Prof. Dr. Clemens Steegborn präsentiert in 'Science' neue, für die Biomedizin wegweisende Forschungsergebnisse zur Rolle des Moleküls NAD⁺ bei der Korrektur von Schäden am Erbgut.

Die Zellen von Menschen und Tieren können Schäden an der DNA, dem Träger der Erbinformation, bis zu einem gewissen Umfang selbst reparieren. Diese Fähigkeit...

Im Focus: Designer-Proteine falten DNA

Florian Praetorius und Prof. Hendrik Dietz von der Technischen Universität München (TUM) haben eine neue Methode entwickelt, mit deren Hilfe sie definierte Hybrid-Strukturen aus DNA und Proteinen aufbauen können. Die Methode eröffnet Möglichkeiten für die zellbiologische Grundlagenforschung und für die Anwendung in Medizin und Biotechnologie.

Desoxyribonukleinsäure – besser bekannt unter der englischen Abkürzung DNA – ist die Trägerin unserer Erbinformation. Für Prof. Hendrik Dietz und Florian...

Im Focus: Fliegende Intensivstationen: Ultraschallgeräte in Rettungshubschraubern können Leben retten

Etwa 21 Millionen Menschen treffen jährlich in deutschen Notaufnahmen ein. Im Kampf zwischen Leben und Tod zählt für diese Patienten jede Minute. Wenn sie schon kurz nach dem Unfall zielgerichtet behandelt werden können, verbessern sich ihre Überlebenschancen erheblich. Damit Notfallmediziner in solchen Fällen schnell die richtige Diagnose stellen können, kommen in den Rettungshubschraubern der DRF Luftrettung und zunehmend auch in Notarzteinsatzfahrzeugen mobile Ultraschallgeräte zum Einsatz. Experten der Deutschen Gesellschaft für Ultraschall in der Medizin e.V. (DEGUM) schulen die Notärzte und Rettungsassistenten.

Mit mobilen Ultraschallgeräten können Notärzte beispielsweise innere Blutungen direkt am Unfallort identifizieren und sie bei Bedarf auch für Untersuchungen im...

Im Focus: Gigantische Magnetfelder im Universum

Astronomen aus Bonn und Tautenburg in Thüringen beobachteten mit dem 100-m-Radioteleskop Effelsberg Galaxienhaufen, das sind Ansammlungen von Sternsystemen, heißem Gas und geladenen Teilchen. An den Rändern dieser Galaxienhaufen fanden sie außergewöhnlich geordnete Magnetfelder, die sich über viele Millionen Lichtjahre erstrecken. Sie stellen die größten bekannten Magnetfelder im Universum dar.

Die Ergebnisse werden am 22. März in der Fachzeitschrift „Astronomy & Astrophysics“ veröffentlicht.

Galaxienhaufen sind die größten gravitativ gebundenen Strukturen im Universum, mit einer Ausdehnung von etwa zehn Millionen Lichtjahren. Im Vergleich dazu ist...

Im Focus: Giant Magnetic Fields in the Universe

Astronomers from Bonn and Tautenburg in Thuringia (Germany) used the 100-m radio telescope at Effelsberg to observe several galaxy clusters. At the edges of these large accumulations of dark matter, stellar systems (galaxies), hot gas, and charged particles, they found magnetic fields that are exceptionally ordered over distances of many million light years. This makes them the most extended magnetic fields in the universe known so far.

The results will be published on March 22 in the journal „Astronomy & Astrophysics“.

Galaxy clusters are the largest gravitationally bound structures in the universe. With a typical extent of about 10 million light years, i.e. 100 times the...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Rund 500 Fachleute aus Wissenschaft und Wirtschaft diskutierten über technologische Zukunftsthemen

24.03.2017 | Veranstaltungen

Lebenswichtige Lebensmittelchemie

23.03.2017 | Veranstaltungen

Die „Panama Papers“ aus Programmierersicht

22.03.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Rund 500 Fachleute aus Wissenschaft und Wirtschaft diskutierten über technologische Zukunftsthemen

24.03.2017 | Veranstaltungsnachrichten

Förderung des Instituts für Lasertechnik und Messtechnik in Ulm mit rund 1,63 Millionen Euro

24.03.2017 | Förderungen Preise

TU-Bauingenieure koordinieren EU-Projekt zu Recycling-Beton von über sieben Millionen Euro

24.03.2017 | Förderungen Preise