Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Berechenbare Sprache – Wie künstliche Stimmen menschlicher klingen

13.12.2012
Was macht eine menschliche Stimme aus? Bernd Möbius entschlüsselt die gesprochene Sprache, um herauszufinden, wie künstliche Stimmen mehr Charakter, mehr „menschlichen Touch“ bekommen.

Hierzu übersetzt der Saarbrücker Professor für Phonetik und Phonologie Laute in Zahlen und sucht und glättet Störstellen mit einem Rechenverfahren. Ziel ist ein selbstlernendes mathematisches Modell der menschlichen Sprache, das es möglich macht, jedem beliebigen Gegenstand jede beliebige Stimme zu verleihen – ohne künstlich zu klingen.

„Den habe ich mir ganz anders vorgestellt“ - das Phänomen tritt zu Tage bei Radiomoderatoren oder Leuten, die bisher nur am Telefon miteinander zu tun hatten: Wer Menschen ausschließlich von ihrer Stimme her kennt, macht sich ein bestimmtes Bild. Da kann eine junge Frau älter wirken, ein kräftiger Mann dünner oder ein blonder Haarträger eher dunkelhaarig. Menschliche Stimmen wecken die Phantasie. „Betrachtet man die Hirntätigkeit beim Hören, ruft eine natürliche Stimme Aktivität in Arealen hervor, die für Gefühle und Assoziationen verantwortlich sind. Bei der klassischen Computerstimme ist das anders. Hört der Mensch eine künstliche Stimme bleiben diese Areale stumm“, erläutert Professor Bernd Möbius, Saarbrücker Experte für Sprachproduktion.

Zwar sind moderne Computerstimmen in Auskunfts- oder Dialogsystemen vom blechernen Klang der abgehackten Wörter ohne Betonung bereits weit entfernt. Trotzdem hört das verwöhnte und seit jeher auf Stimmen spezialisierte menschliche Ohr die feinen Unterschiede, ob Mensch oder Maschine spricht. Werden Sätze aus Laut- und Wortschnipseln zusammengesetzt, entlarvt es selbst feinste Sprünge sofort. Fließende Sprachmelodien und sonstige Eigenheiten machen den besonderen Charakter natürlicher Stimmen aus. Fehlen sie, klingt die Stimme künstlich – und sie weckt auch keinerlei Gefühl.

Bernd Möbius forscht daran, diese Charakteristika der menschlichen Stimme herauszufinden, um sie in künstliche Stimmen hineinzurechnen und Sprungstellen und Störfaktoren aus ihnen herauszuholen. „Der Hörer soll sich eine Person hinter der Stimme vorstellen“, sagt er.

Hierzu begibt sich der Forscher mit seinem Team gewissermaßen auf die mikroskopische Ebene und betrachtet die Sprache in ihren kleinsten Einzelteilen. Zugrunde liegt ein digitalisierter Textkorpus, den ein Sprecher im Tonstudio eingesprochen hat. Die Phonetiker verwenden unter anderem die so genannte „Diphonsynthese“. Ein Diphon ist ein kurzer Sprach-Abschnitt, der in der Mitte eines Lautsegments beginnt und in der Mitte des folgenden Lautsegments endet. „Unsere Sprache kennt 45 Laute und etwa 2000 Diphone, jedes davon ist etwa 100 Millisekunden lang. Mit diesem Instrumentarium können wir auf lautlicher Ebene die gesamte Sprache abdecken“, erläutert Möbius.

In den Diphonen liegen die größten Probleme der künstlichen Stimmen verborgen: Sie enthalten etwa den Übergang zwischen den Lauten – winzige Schallsegmente, die bei der Verknüpfung der Sprachbausteine die verräterischen Sprünge hinterlassen. Diese Übergänge verkettet Möbius neu und glättet sie auf diese Weise, wodurch unstete Holperer und Sprungstellen aus der Computersprache verschwinden. „Anzahl und Häufigkeit der Übergänge lassen sich außerdem verringern, wenn es gelingt, längere Bausteine wie Silben oder ganze Wörter, die in den Sprachaufnahmen bereits verfügbar sind, wieder zu verwenden“, erklärt er. Die optimierten Sprachbausteine lassen sich in allen erdenklichen Kombinationsmöglichkeiten völlig neu zusammensetzen. Mit dieser künstlichen, aber natürlich klingenden Sprache lassen sich beliebige Äußerungen mit unbeschränktem Wortschatz erzeugen.

Das mathematische Sprachsynthese-Modell ist unabhängig von der Stimme des ursprünglichen Sprechers – dadurch ist es auf jede beliebige Stimme übertragbar. Hieraus ergeben sich in Zukunft neben den üblichen Anwendungen in Dialog- oder Auskunftssystemen auch neue Möglichkeiten in der Medizin: „Menschen, die ihre Stimme etwa durch eine Kehlkopfoperation verlieren, könnten so in nicht ferner Zukunft mit einer künstlich erzeugten Stimme sprechen, die wie ihre eigene, natürliche klingt“, stellt Möbius in Aussicht. Die Betroffenen müssten hierfür lediglich ihre Stimme im Tonstudio konservieren, wobei bereits relativ wenig „Sprach-Material“ ausreichen würde – das System könnte den Rest berechnen.

Bei seiner Forschung arbeitet Möbius an der Universität des Saarlandes unter anderem mit Computer- und Psycholinguisten sowie mit Informatikern im Exzellenzcluster „Multimodal Computing and Interaction“ und am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) zusammen.

Prof. Dr. Bernd Möbius: Tel.: 0681 / 302-4500;
E-Mail: moebius@coli.uni-saarland.de
http://www.coli.uni-saarland.de/~moebius/
Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern führen, über Rundfunk-Codec (IP-Verbindung). Interviewwünsche bitte an die Pressestelle (0681/302-2601) richten.

Claudia Ehrlich |
Weitere Informationen:
http://www.coli.uni-saarland.de/~moebius/
http://www.uni-saarland.de

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Forschung für Hochleistungs-Chips
19.05.2015 | BMBF - Bundesministerium für Bildung und Forschung

nachricht Grünes Licht für nächsten Montageschritt
18.05.2015 | Fraunhofer-Institut für Produktionstechnik und Automatisierung IPA

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Basler Physiker entwickeln Methode zur effizienten Signalübertragung aus Nanobauteilen

Physiker haben eine innovative Methode entwickelt, die den effizienten Einsatz von Nanobauteilen in elektronische Schaltkreisen ermöglichen könnte. Sie entwickelten dazu eine Anordnung, bei der ein Nanobauteil mit zwei elektrischen Leitern verbunden ist. Diese bewirken eine hocheffiziente Auskopplung des elektrischen Signals. Die Wissenschaftler vom Departement Physik und dem Swiss Nanoscience Institute der Universität Basel haben ihre Ergebnisse zusammen mit Kollegen der ETH Zürich in der Fachzeitschrift «Nature Communications» publiziert.

Elektronische Bauteile werden immer kleiner. In Forschungslabors werden bereits Bauelemente von wenigen Nanometern hergestellt, was ungefähr der Grösse von...

Im Focus: Basel Physicists Develop Efficient Method of Signal Transmission from Nanocomponents

Physicists have developed an innovative method that could enable the efficient use of nanocomponents in electronic circuits. To achieve this, they have developed a layout in which a nanocomponent is connected to two electrical conductors, which uncouple the electrical signal in a highly efficient manner. The scientists at the Department of Physics and the Swiss Nanoscience Institute at the University of Basel have published their results in the scientific journal “Nature Communications” together with their colleagues from ETH Zurich.

Electronic components are becoming smaller and smaller. Components measuring just a few nanometers – the size of around ten atoms – are already being produced...

Im Focus: Phagen übertragen Antibiotikaresistenzen auf Bakterien – Nachweis auf Geflügelfleisch

Bakterien entwickeln immer häufiger Resistenzen gegenüber Antibiotika. Es gibt unterschiedliche Erklärungen dafür, wie diese Resistenzen in die Bakterien gelangen. Forschende der Vetmeduni Vienna fanden sogenannte Phagen auf Geflügelfleisch, die Antibiotikaresistenzen auf Bakterien übertragen können. Phagen sind Viren, die ausschließlich Bakterien infizieren können. Für Menschen sind sie unschädlich. Phagen könnten laut Studie jedoch zur Verbreitung von Antibiotikaresistenzen beitragen. Die Erkenntnisse sind nicht nur für die Lebensmittelproduktion sondern auch für die Medizin von Bedeutung. Die Studie wurde in der Fachzeitschrift Applied and Environmental Microbiology veröffentlicht.

Antibiotikaresistente Bakterien stellen weltweit ein bedeutendes Gesundheitsrisiko dar. Gängige Antibiotika sind bei der Behandlung von Infektionskrankheiten...

Im Focus: Die schreckliche Schönheit der Medusa

Astronomen haben mit dem Very Large Telescope der ESO in Chile das bisher detailgetreueste Bild vom Medusa-Nebel eingefangen, das je aufgenommen wurde. Als der Stern im Herzen dieses Nebels altersschwach wurde, hat er seine äußeren Schichten abgestoßen, aus denen sich diese farbenfrohe Wolke bildete. Das Bild lässt erahnen, welches endgültige Schicksal die Sonne einmal ereilen wird: Irgendwann wird aus ihr ebenfalls ein Objekt dieser Art werden.

Dieser wunderschöne Planetarische Nebel ist nach einer schrecklichen Kreatur aus der griechischen Mythologie benannt – der Gorgone Medusa. Er trägt auch die...

Im Focus: IoT-based Advanced Automobile Parking Navigation System

Development and implementation of an advanced automobile parking navigation platform for parking services

To fulfill the requirements of the industry, PolyU researchers developed the Advanced Automobile Parking Navigation Platform, which includes smart devices,...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Internationale neurowissenschaftliche Tagung

22.05.2015 | Veranstaltungen

Biokohle-Forscher tagen in Potsdam

21.05.2015 | Veranstaltungen

Tumor immunology meets oncology: Internationale Fachtagung zum elften Mal in Halle

21.05.2015 | Veranstaltungen

 
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Spitzenforschung in der Würzburger Festkörperphysik

22.05.2015 | Physik Astronomie

Basler Physiker entwickeln Methode zur effizienten Signalübertragung aus Nanobauteilen

22.05.2015 | Physik Astronomie

Savannen dominieren die Schwankungen der Landvegetation als Kohlenstoffsenke

22.05.2015 | Ökologie Umwelt- Naturschutz