Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Berechenbare Sprache – Wie künstliche Stimmen menschlicher klingen

13.12.2012
Was macht eine menschliche Stimme aus? Bernd Möbius entschlüsselt die gesprochene Sprache, um herauszufinden, wie künstliche Stimmen mehr Charakter, mehr „menschlichen Touch“ bekommen.

Hierzu übersetzt der Saarbrücker Professor für Phonetik und Phonologie Laute in Zahlen und sucht und glättet Störstellen mit einem Rechenverfahren. Ziel ist ein selbstlernendes mathematisches Modell der menschlichen Sprache, das es möglich macht, jedem beliebigen Gegenstand jede beliebige Stimme zu verleihen – ohne künstlich zu klingen.

„Den habe ich mir ganz anders vorgestellt“ - das Phänomen tritt zu Tage bei Radiomoderatoren oder Leuten, die bisher nur am Telefon miteinander zu tun hatten: Wer Menschen ausschließlich von ihrer Stimme her kennt, macht sich ein bestimmtes Bild. Da kann eine junge Frau älter wirken, ein kräftiger Mann dünner oder ein blonder Haarträger eher dunkelhaarig. Menschliche Stimmen wecken die Phantasie. „Betrachtet man die Hirntätigkeit beim Hören, ruft eine natürliche Stimme Aktivität in Arealen hervor, die für Gefühle und Assoziationen verantwortlich sind. Bei der klassischen Computerstimme ist das anders. Hört der Mensch eine künstliche Stimme bleiben diese Areale stumm“, erläutert Professor Bernd Möbius, Saarbrücker Experte für Sprachproduktion.

Zwar sind moderne Computerstimmen in Auskunfts- oder Dialogsystemen vom blechernen Klang der abgehackten Wörter ohne Betonung bereits weit entfernt. Trotzdem hört das verwöhnte und seit jeher auf Stimmen spezialisierte menschliche Ohr die feinen Unterschiede, ob Mensch oder Maschine spricht. Werden Sätze aus Laut- und Wortschnipseln zusammengesetzt, entlarvt es selbst feinste Sprünge sofort. Fließende Sprachmelodien und sonstige Eigenheiten machen den besonderen Charakter natürlicher Stimmen aus. Fehlen sie, klingt die Stimme künstlich – und sie weckt auch keinerlei Gefühl.

Bernd Möbius forscht daran, diese Charakteristika der menschlichen Stimme herauszufinden, um sie in künstliche Stimmen hineinzurechnen und Sprungstellen und Störfaktoren aus ihnen herauszuholen. „Der Hörer soll sich eine Person hinter der Stimme vorstellen“, sagt er.

Hierzu begibt sich der Forscher mit seinem Team gewissermaßen auf die mikroskopische Ebene und betrachtet die Sprache in ihren kleinsten Einzelteilen. Zugrunde liegt ein digitalisierter Textkorpus, den ein Sprecher im Tonstudio eingesprochen hat. Die Phonetiker verwenden unter anderem die so genannte „Diphonsynthese“. Ein Diphon ist ein kurzer Sprach-Abschnitt, der in der Mitte eines Lautsegments beginnt und in der Mitte des folgenden Lautsegments endet. „Unsere Sprache kennt 45 Laute und etwa 2000 Diphone, jedes davon ist etwa 100 Millisekunden lang. Mit diesem Instrumentarium können wir auf lautlicher Ebene die gesamte Sprache abdecken“, erläutert Möbius.

In den Diphonen liegen die größten Probleme der künstlichen Stimmen verborgen: Sie enthalten etwa den Übergang zwischen den Lauten – winzige Schallsegmente, die bei der Verknüpfung der Sprachbausteine die verräterischen Sprünge hinterlassen. Diese Übergänge verkettet Möbius neu und glättet sie auf diese Weise, wodurch unstete Holperer und Sprungstellen aus der Computersprache verschwinden. „Anzahl und Häufigkeit der Übergänge lassen sich außerdem verringern, wenn es gelingt, längere Bausteine wie Silben oder ganze Wörter, die in den Sprachaufnahmen bereits verfügbar sind, wieder zu verwenden“, erklärt er. Die optimierten Sprachbausteine lassen sich in allen erdenklichen Kombinationsmöglichkeiten völlig neu zusammensetzen. Mit dieser künstlichen, aber natürlich klingenden Sprache lassen sich beliebige Äußerungen mit unbeschränktem Wortschatz erzeugen.

Das mathematische Sprachsynthese-Modell ist unabhängig von der Stimme des ursprünglichen Sprechers – dadurch ist es auf jede beliebige Stimme übertragbar. Hieraus ergeben sich in Zukunft neben den üblichen Anwendungen in Dialog- oder Auskunftssystemen auch neue Möglichkeiten in der Medizin: „Menschen, die ihre Stimme etwa durch eine Kehlkopfoperation verlieren, könnten so in nicht ferner Zukunft mit einer künstlich erzeugten Stimme sprechen, die wie ihre eigene, natürliche klingt“, stellt Möbius in Aussicht. Die Betroffenen müssten hierfür lediglich ihre Stimme im Tonstudio konservieren, wobei bereits relativ wenig „Sprach-Material“ ausreichen würde – das System könnte den Rest berechnen.

Bei seiner Forschung arbeitet Möbius an der Universität des Saarlandes unter anderem mit Computer- und Psycholinguisten sowie mit Informatikern im Exzellenzcluster „Multimodal Computing and Interaction“ und am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) zusammen.

Prof. Dr. Bernd Möbius: Tel.: 0681 / 302-4500;
E-Mail: moebius@coli.uni-saarland.de
http://www.coli.uni-saarland.de/~moebius/
Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern führen, über Rundfunk-Codec (IP-Verbindung). Interviewwünsche bitte an die Pressestelle (0681/302-2601) richten.

Claudia Ehrlich |
Weitere Informationen:
http://www.coli.uni-saarland.de/~moebius/
http://www.uni-saarland.de

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Cybersicherheit für die Bahn von morgen
24.03.2017 | Fraunhofer-Institut für Sichere Informationstechnologie SIT

nachricht Schutz vor Angriffen dank flexibler Programmierung
22.03.2017 | FZI Forschungszentrum Informatik am Karlsruher Institut für Technologie

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Wegweisende Erkenntnisse für die Biomedizin: NAD⁺ hilft bei Reparatur geschädigter Erbinformationen

Eine internationale Forschergruppe mit dem Bayreuther Biochemiker Prof. Dr. Clemens Steegborn präsentiert in 'Science' neue, für die Biomedizin wegweisende Forschungsergebnisse zur Rolle des Moleküls NAD⁺ bei der Korrektur von Schäden am Erbgut.

Die Zellen von Menschen und Tieren können Schäden an der DNA, dem Träger der Erbinformation, bis zu einem gewissen Umfang selbst reparieren. Diese Fähigkeit...

Im Focus: Designer-Proteine falten DNA

Florian Praetorius und Prof. Hendrik Dietz von der Technischen Universität München (TUM) haben eine neue Methode entwickelt, mit deren Hilfe sie definierte Hybrid-Strukturen aus DNA und Proteinen aufbauen können. Die Methode eröffnet Möglichkeiten für die zellbiologische Grundlagenforschung und für die Anwendung in Medizin und Biotechnologie.

Desoxyribonukleinsäure – besser bekannt unter der englischen Abkürzung DNA – ist die Trägerin unserer Erbinformation. Für Prof. Hendrik Dietz und Florian...

Im Focus: Fliegende Intensivstationen: Ultraschallgeräte in Rettungshubschraubern können Leben retten

Etwa 21 Millionen Menschen treffen jährlich in deutschen Notaufnahmen ein. Im Kampf zwischen Leben und Tod zählt für diese Patienten jede Minute. Wenn sie schon kurz nach dem Unfall zielgerichtet behandelt werden können, verbessern sich ihre Überlebenschancen erheblich. Damit Notfallmediziner in solchen Fällen schnell die richtige Diagnose stellen können, kommen in den Rettungshubschraubern der DRF Luftrettung und zunehmend auch in Notarzteinsatzfahrzeugen mobile Ultraschallgeräte zum Einsatz. Experten der Deutschen Gesellschaft für Ultraschall in der Medizin e.V. (DEGUM) schulen die Notärzte und Rettungsassistenten.

Mit mobilen Ultraschallgeräten können Notärzte beispielsweise innere Blutungen direkt am Unfallort identifizieren und sie bei Bedarf auch für Untersuchungen im...

Im Focus: Gigantische Magnetfelder im Universum

Astronomen aus Bonn und Tautenburg in Thüringen beobachteten mit dem 100-m-Radioteleskop Effelsberg Galaxienhaufen, das sind Ansammlungen von Sternsystemen, heißem Gas und geladenen Teilchen. An den Rändern dieser Galaxienhaufen fanden sie außergewöhnlich geordnete Magnetfelder, die sich über viele Millionen Lichtjahre erstrecken. Sie stellen die größten bekannten Magnetfelder im Universum dar.

Die Ergebnisse werden am 22. März in der Fachzeitschrift „Astronomy & Astrophysics“ veröffentlicht.

Galaxienhaufen sind die größten gravitativ gebundenen Strukturen im Universum, mit einer Ausdehnung von etwa zehn Millionen Lichtjahren. Im Vergleich dazu ist...

Im Focus: Giant Magnetic Fields in the Universe

Astronomers from Bonn and Tautenburg in Thuringia (Germany) used the 100-m radio telescope at Effelsberg to observe several galaxy clusters. At the edges of these large accumulations of dark matter, stellar systems (galaxies), hot gas, and charged particles, they found magnetic fields that are exceptionally ordered over distances of many million light years. This makes them the most extended magnetic fields in the universe known so far.

The results will be published on March 22 in the journal „Astronomy & Astrophysics“.

Galaxy clusters are the largest gravitationally bound structures in the universe. With a typical extent of about 10 million light years, i.e. 100 times the...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Rund 500 Fachleute aus Wissenschaft und Wirtschaft diskutierten über technologische Zukunftsthemen

24.03.2017 | Veranstaltungen

Lebenswichtige Lebensmittelchemie

23.03.2017 | Veranstaltungen

Die „Panama Papers“ aus Programmierersicht

22.03.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Rund 500 Fachleute aus Wissenschaft und Wirtschaft diskutierten über technologische Zukunftsthemen

24.03.2017 | Veranstaltungsnachrichten

Förderung des Instituts für Lasertechnik und Messtechnik in Ulm mit rund 1,63 Millionen Euro

24.03.2017 | Förderungen Preise

TU-Bauingenieure koordinieren EU-Projekt zu Recycling-Beton von über sieben Millionen Euro

24.03.2017 | Förderungen Preise