Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Berechenbare Sprache – Wie künstliche Stimmen menschlicher klingen

13.12.2012
Was macht eine menschliche Stimme aus? Bernd Möbius entschlüsselt die gesprochene Sprache, um herauszufinden, wie künstliche Stimmen mehr Charakter, mehr „menschlichen Touch“ bekommen.

Hierzu übersetzt der Saarbrücker Professor für Phonetik und Phonologie Laute in Zahlen und sucht und glättet Störstellen mit einem Rechenverfahren. Ziel ist ein selbstlernendes mathematisches Modell der menschlichen Sprache, das es möglich macht, jedem beliebigen Gegenstand jede beliebige Stimme zu verleihen – ohne künstlich zu klingen.

„Den habe ich mir ganz anders vorgestellt“ - das Phänomen tritt zu Tage bei Radiomoderatoren oder Leuten, die bisher nur am Telefon miteinander zu tun hatten: Wer Menschen ausschließlich von ihrer Stimme her kennt, macht sich ein bestimmtes Bild. Da kann eine junge Frau älter wirken, ein kräftiger Mann dünner oder ein blonder Haarträger eher dunkelhaarig. Menschliche Stimmen wecken die Phantasie. „Betrachtet man die Hirntätigkeit beim Hören, ruft eine natürliche Stimme Aktivität in Arealen hervor, die für Gefühle und Assoziationen verantwortlich sind. Bei der klassischen Computerstimme ist das anders. Hört der Mensch eine künstliche Stimme bleiben diese Areale stumm“, erläutert Professor Bernd Möbius, Saarbrücker Experte für Sprachproduktion.

Zwar sind moderne Computerstimmen in Auskunfts- oder Dialogsystemen vom blechernen Klang der abgehackten Wörter ohne Betonung bereits weit entfernt. Trotzdem hört das verwöhnte und seit jeher auf Stimmen spezialisierte menschliche Ohr die feinen Unterschiede, ob Mensch oder Maschine spricht. Werden Sätze aus Laut- und Wortschnipseln zusammengesetzt, entlarvt es selbst feinste Sprünge sofort. Fließende Sprachmelodien und sonstige Eigenheiten machen den besonderen Charakter natürlicher Stimmen aus. Fehlen sie, klingt die Stimme künstlich – und sie weckt auch keinerlei Gefühl.

Bernd Möbius forscht daran, diese Charakteristika der menschlichen Stimme herauszufinden, um sie in künstliche Stimmen hineinzurechnen und Sprungstellen und Störfaktoren aus ihnen herauszuholen. „Der Hörer soll sich eine Person hinter der Stimme vorstellen“, sagt er.

Hierzu begibt sich der Forscher mit seinem Team gewissermaßen auf die mikroskopische Ebene und betrachtet die Sprache in ihren kleinsten Einzelteilen. Zugrunde liegt ein digitalisierter Textkorpus, den ein Sprecher im Tonstudio eingesprochen hat. Die Phonetiker verwenden unter anderem die so genannte „Diphonsynthese“. Ein Diphon ist ein kurzer Sprach-Abschnitt, der in der Mitte eines Lautsegments beginnt und in der Mitte des folgenden Lautsegments endet. „Unsere Sprache kennt 45 Laute und etwa 2000 Diphone, jedes davon ist etwa 100 Millisekunden lang. Mit diesem Instrumentarium können wir auf lautlicher Ebene die gesamte Sprache abdecken“, erläutert Möbius.

In den Diphonen liegen die größten Probleme der künstlichen Stimmen verborgen: Sie enthalten etwa den Übergang zwischen den Lauten – winzige Schallsegmente, die bei der Verknüpfung der Sprachbausteine die verräterischen Sprünge hinterlassen. Diese Übergänge verkettet Möbius neu und glättet sie auf diese Weise, wodurch unstete Holperer und Sprungstellen aus der Computersprache verschwinden. „Anzahl und Häufigkeit der Übergänge lassen sich außerdem verringern, wenn es gelingt, längere Bausteine wie Silben oder ganze Wörter, die in den Sprachaufnahmen bereits verfügbar sind, wieder zu verwenden“, erklärt er. Die optimierten Sprachbausteine lassen sich in allen erdenklichen Kombinationsmöglichkeiten völlig neu zusammensetzen. Mit dieser künstlichen, aber natürlich klingenden Sprache lassen sich beliebige Äußerungen mit unbeschränktem Wortschatz erzeugen.

Das mathematische Sprachsynthese-Modell ist unabhängig von der Stimme des ursprünglichen Sprechers – dadurch ist es auf jede beliebige Stimme übertragbar. Hieraus ergeben sich in Zukunft neben den üblichen Anwendungen in Dialog- oder Auskunftssystemen auch neue Möglichkeiten in der Medizin: „Menschen, die ihre Stimme etwa durch eine Kehlkopfoperation verlieren, könnten so in nicht ferner Zukunft mit einer künstlich erzeugten Stimme sprechen, die wie ihre eigene, natürliche klingt“, stellt Möbius in Aussicht. Die Betroffenen müssten hierfür lediglich ihre Stimme im Tonstudio konservieren, wobei bereits relativ wenig „Sprach-Material“ ausreichen würde – das System könnte den Rest berechnen.

Bei seiner Forschung arbeitet Möbius an der Universität des Saarlandes unter anderem mit Computer- und Psycholinguisten sowie mit Informatikern im Exzellenzcluster „Multimodal Computing and Interaction“ und am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) zusammen.

Prof. Dr. Bernd Möbius: Tel.: 0681 / 302-4500;
E-Mail: moebius@coli.uni-saarland.de
http://www.coli.uni-saarland.de/~moebius/
Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern führen, über Rundfunk-Codec (IP-Verbindung). Interviewwünsche bitte an die Pressestelle (0681/302-2601) richten.

Claudia Ehrlich |
Weitere Informationen:
http://www.coli.uni-saarland.de/~moebius/
http://www.uni-saarland.de

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Das Start-up inveox will Krebsdiagnosen durch Automatisierung im Labor zuverlässiger machen
15.06.2018 | Technische Universität München

nachricht Fußball durch die Augen des Computers
14.06.2018 | Universität Konstanz

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: AchemAsia 2019 in Shanghai

Die AchemAsia geht in ihr viertes Jahrzehnt und bricht auf zu neuen Ufern: Das International Expo and Innovation Forum for Sustainable Chemical Production findet vom 21. bis 23. Mai 2019 in Shanghai, China statt. Gleichzeitig erhält die Veranstaltung ein aktuelles Profil: Die elfte Ausgabe fokussiert auf Themen, die für Chinas Prozessindustrie besonders relevant sind, und legt den Schwerpunkt auf Nachhaltigkeit und Innovation.

1989 wurde die AchemAsia als Spin-Off der ACHEMA ins Leben gerufen, um die Bedürfnisse der sich damals noch entwickelnden Iindustrie in China zu erfüllen. Seit...

Im Focus: AchemAsia 2019 will take place in Shanghai

Moving into its fourth decade, AchemAsia is setting out for new horizons: The International Expo and Innovation Forum for Sustainable Chemical Production will take place from 21-23 May 2019 in Shanghai, China. With an updated event profile, the eleventh edition focusses on topics that are especially relevant for the Chinese process industry, putting a strong emphasis on sustainability and innovation.

Founded in 1989 as a spin-off of ACHEMA to cater to the needs of China’s then developing industry, AchemAsia has since grown into a platform where the latest...

Im Focus: Li-Fi erstmals für das industrielle Internet der Dinge getestet

Mit einer Abschlusspräsentation im BMW Werk München wurde das BMBF-geförderte Projekt OWICELLS erfolgreich abgeschlossen. Dabei wurde eine Li-Fi Kommunikation zu einem mobilen Roboter in einer 5x5m² Fertigungszelle demonstriert, der produktionsübliche Vorgänge durchführt (Teile schweißen, umlegen und prüfen). Die robuste, optische Drahtlosübertragung beruht auf räumlicher Diversität, d.h. Daten werden von mehreren LEDs und mehreren Photodioden gleichzeitig gesendet und empfangen. Das System kann Daten mit mehr als 100 Mbit/s und fünf Millisekunden Latenz übertragen.

Moderne Produktionstechniken in der Automobilindustrie müssen flexibler werden, um sich an individuelle Kundenwünsche anpassen zu können. Forscher untersuchen...

Im Focus: First real-time test of Li-Fi utilization for the industrial Internet of Things

The BMBF-funded OWICELLS project was successfully completed with a final presentation at the BMW plant in Munich. The presentation demonstrated a Li-Fi communication with a mobile robot, while the robot carried out usual production processes (welding, moving and testing parts) in a 5x5m² production cell. The robust, optical wireless transmission is based on spatial diversity; in other words, data is sent and received simultaneously by several LEDs and several photodiodes. The system can transmit data at more than 100 Mbit/s and five milliseconds latency.

Modern production technologies in the automobile industry must become more flexible in order to fulfil individual customer requirements.

Im Focus: ALMA entdeckt Trio von Baby-Planeten rund um neugeborenen Stern

Neuartige Technik, um die jüngsten Planeten in unserer Galaxis zu finden

Zwei unabhängige Astronomenteams haben mit ALMA überzeugende Belege dafür gefunden, dass sich drei junge Planeten im Orbit um den Säuglingsstern HD 163296...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

Simulierter Eingriff am virtuellen Herzen

18.06.2018 | Veranstaltungen

Künstliche Intelligenz – Schafft der Mensch seine Arbeit ab?

15.06.2018 | Veranstaltungen

Internationale Konferenz zur Asteroidenforschung in Garching

13.06.2018 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Neuer Abwehrmechanismus gegen Sauerstoffradikale entdeckt

18.06.2018 | Biowissenschaften Chemie

Umwandlung von nicht-neuronalen Zellen in Nervenzellen

18.06.2018 | Biowissenschaften Chemie

Im Fußballfieber: Rittal Cup verspricht Spannung und Spaß

18.06.2018 | Unternehmensmeldung

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics