Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Berechenbare Sprache – Wie künstliche Stimmen menschlicher klingen

13.12.2012
Was macht eine menschliche Stimme aus? Bernd Möbius entschlüsselt die gesprochene Sprache, um herauszufinden, wie künstliche Stimmen mehr Charakter, mehr „menschlichen Touch“ bekommen.

Hierzu übersetzt der Saarbrücker Professor für Phonetik und Phonologie Laute in Zahlen und sucht und glättet Störstellen mit einem Rechenverfahren. Ziel ist ein selbstlernendes mathematisches Modell der menschlichen Sprache, das es möglich macht, jedem beliebigen Gegenstand jede beliebige Stimme zu verleihen – ohne künstlich zu klingen.

„Den habe ich mir ganz anders vorgestellt“ - das Phänomen tritt zu Tage bei Radiomoderatoren oder Leuten, die bisher nur am Telefon miteinander zu tun hatten: Wer Menschen ausschließlich von ihrer Stimme her kennt, macht sich ein bestimmtes Bild. Da kann eine junge Frau älter wirken, ein kräftiger Mann dünner oder ein blonder Haarträger eher dunkelhaarig. Menschliche Stimmen wecken die Phantasie. „Betrachtet man die Hirntätigkeit beim Hören, ruft eine natürliche Stimme Aktivität in Arealen hervor, die für Gefühle und Assoziationen verantwortlich sind. Bei der klassischen Computerstimme ist das anders. Hört der Mensch eine künstliche Stimme bleiben diese Areale stumm“, erläutert Professor Bernd Möbius, Saarbrücker Experte für Sprachproduktion.

Zwar sind moderne Computerstimmen in Auskunfts- oder Dialogsystemen vom blechernen Klang der abgehackten Wörter ohne Betonung bereits weit entfernt. Trotzdem hört das verwöhnte und seit jeher auf Stimmen spezialisierte menschliche Ohr die feinen Unterschiede, ob Mensch oder Maschine spricht. Werden Sätze aus Laut- und Wortschnipseln zusammengesetzt, entlarvt es selbst feinste Sprünge sofort. Fließende Sprachmelodien und sonstige Eigenheiten machen den besonderen Charakter natürlicher Stimmen aus. Fehlen sie, klingt die Stimme künstlich – und sie weckt auch keinerlei Gefühl.

Bernd Möbius forscht daran, diese Charakteristika der menschlichen Stimme herauszufinden, um sie in künstliche Stimmen hineinzurechnen und Sprungstellen und Störfaktoren aus ihnen herauszuholen. „Der Hörer soll sich eine Person hinter der Stimme vorstellen“, sagt er.

Hierzu begibt sich der Forscher mit seinem Team gewissermaßen auf die mikroskopische Ebene und betrachtet die Sprache in ihren kleinsten Einzelteilen. Zugrunde liegt ein digitalisierter Textkorpus, den ein Sprecher im Tonstudio eingesprochen hat. Die Phonetiker verwenden unter anderem die so genannte „Diphonsynthese“. Ein Diphon ist ein kurzer Sprach-Abschnitt, der in der Mitte eines Lautsegments beginnt und in der Mitte des folgenden Lautsegments endet. „Unsere Sprache kennt 45 Laute und etwa 2000 Diphone, jedes davon ist etwa 100 Millisekunden lang. Mit diesem Instrumentarium können wir auf lautlicher Ebene die gesamte Sprache abdecken“, erläutert Möbius.

In den Diphonen liegen die größten Probleme der künstlichen Stimmen verborgen: Sie enthalten etwa den Übergang zwischen den Lauten – winzige Schallsegmente, die bei der Verknüpfung der Sprachbausteine die verräterischen Sprünge hinterlassen. Diese Übergänge verkettet Möbius neu und glättet sie auf diese Weise, wodurch unstete Holperer und Sprungstellen aus der Computersprache verschwinden. „Anzahl und Häufigkeit der Übergänge lassen sich außerdem verringern, wenn es gelingt, längere Bausteine wie Silben oder ganze Wörter, die in den Sprachaufnahmen bereits verfügbar sind, wieder zu verwenden“, erklärt er. Die optimierten Sprachbausteine lassen sich in allen erdenklichen Kombinationsmöglichkeiten völlig neu zusammensetzen. Mit dieser künstlichen, aber natürlich klingenden Sprache lassen sich beliebige Äußerungen mit unbeschränktem Wortschatz erzeugen.

Das mathematische Sprachsynthese-Modell ist unabhängig von der Stimme des ursprünglichen Sprechers – dadurch ist es auf jede beliebige Stimme übertragbar. Hieraus ergeben sich in Zukunft neben den üblichen Anwendungen in Dialog- oder Auskunftssystemen auch neue Möglichkeiten in der Medizin: „Menschen, die ihre Stimme etwa durch eine Kehlkopfoperation verlieren, könnten so in nicht ferner Zukunft mit einer künstlich erzeugten Stimme sprechen, die wie ihre eigene, natürliche klingt“, stellt Möbius in Aussicht. Die Betroffenen müssten hierfür lediglich ihre Stimme im Tonstudio konservieren, wobei bereits relativ wenig „Sprach-Material“ ausreichen würde – das System könnte den Rest berechnen.

Bei seiner Forschung arbeitet Möbius an der Universität des Saarlandes unter anderem mit Computer- und Psycholinguisten sowie mit Informatikern im Exzellenzcluster „Multimodal Computing and Interaction“ und am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) zusammen.

Prof. Dr. Bernd Möbius: Tel.: 0681 / 302-4500;
E-Mail: moebius@coli.uni-saarland.de
http://www.coli.uni-saarland.de/~moebius/
Hinweis für Hörfunk-Journalisten: Sie können Telefoninterviews in Studioqualität mit Wissenschaftlern führen, über Rundfunk-Codec (IP-Verbindung). Interviewwünsche bitte an die Pressestelle (0681/302-2601) richten.

Claudia Ehrlich |
Weitere Informationen:
http://www.coli.uni-saarland.de/~moebius/
http://www.uni-saarland.de

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht »Lernlabor Cybersicherheit« startet in Weiden i. d. Oberpfalz
12.01.2017 | Fraunhofer-Gesellschaft

nachricht Klick-Tagebuch: App-Projekt der HdM erlaubt neuen Ansatz in Entwicklungsforschung
11.01.2017 | Hochschule der Medien Stuttgart

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Mit solaren Gebäudehüllen Architektur gestalten

Solarthermie ist in der breiten Öffentlichkeit derzeit durch dunkelblaue, rechteckige Kollektoren auf Hausdächern besetzt. Für ästhetisch hochwertige Architektur werden Technologien benötigt, die dem Architekten mehr Gestaltungsspielraum für Niedrigst- und Plusenergiegebäude geben. Im Projekt »ArKol« entwickeln Forscher des Fraunhofer ISE gemeinsam mit Partnern aktuell zwei Fassadenkollektoren für solare Wärmeerzeugung, die ein hohes Maß an Designflexibilität erlauben: einen Streifenkollektor für opake sowie eine solarthermische Jalousie für transparente Fassadenanteile. Der aktuelle Stand der beiden Entwicklungen wird auf der BAU 2017 vorgestellt.

Im Projekt »ArKol – Entwicklung von architektonisch hoch integrierten Fassadekollektoren mit Heat Pipes« entwickelt das Fraunhofer ISE gemeinsam mit Partnern...

Im Focus: Designing Architecture with Solar Building Envelopes

Among the general public, solar thermal energy is currently associated with dark blue, rectangular collectors on building roofs. Technologies are needed for aesthetically high quality architecture which offer the architect more room for manoeuvre when it comes to low- and plus-energy buildings. With the “ArKol” project, researchers at Fraunhofer ISE together with partners are currently developing two façade collectors for solar thermal energy generation, which permit a high degree of design flexibility: a strip collector for opaque façade sections and a solar thermal blind for transparent sections. The current state of the two developments will be presented at the BAU 2017 trade fair.

As part of the “ArKol – development of architecturally highly integrated façade collectors with heat pipes” project, Fraunhofer ISE together with its partners...

Im Focus: Mit Bindfaden und Schere - die Chromosomenverteilung in der Meiose

Was einmal fest verbunden war sollte nicht getrennt werden? Nicht so in der Meiose, der Zellteilung in der Gameten, Spermien und Eizellen entstehen. Am Anfang der Meiose hält der ringförmige Proteinkomplex Kohäsin die Chromosomenstränge, auf denen die Bauanleitung des Körpers gespeichert ist, zusammen wie ein Bindfaden. Damit am Ende jede Eizelle und jedes Spermium nur einen Chromosomensatz erhält, müssen die Bindfäden aufgeschnitten werden. Forscher vom Max-Planck-Institut für Biochemie zeigen in der Bäckerhefe wie ein auch im Menschen vorkommendes Kinase-Enzym das Aufschneiden der Kohäsinringe kontrolliert und mit dem Austritt aus der Meiose und der Gametenbildung koordiniert.

Warum sehen Kinder eigentlich ihren Eltern ähnlich? Die meisten Zellen unseres Körpers sind diploid, d.h. sie besitzen zwei Kopien von jedem Chromosom – eine...

Im Focus: Der Klang des Ozeans

Umfassende Langzeitstudie zur Geräuschkulisse im Südpolarmeer veröffentlicht

Fast drei Jahre lang haben AWI-Wissenschaftler mit Unterwasser-Mikrofonen in das Südpolarmeer hineingehorcht und einen „Chor“ aus Walen und Robben vernommen....

Im Focus: Wie man eine 80t schwere Betonschale aufbläst

An der TU Wien wurde eine Alternative zu teuren und aufwendigen Schalungen für Kuppelbauten entwickelt, die nun in einem Testbauwerk für die ÖBB-Infrastruktur umgesetzt wird.

Die Schalung für Kuppelbauten aus Beton ist normalerweise aufwändig und teuer. Eine mögliche kostengünstige und ressourcenschonende Alternative bietet die an...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Event News

12V, 48V, high-voltage – trends in E/E automotive architecture

10.01.2017 | Event News

2nd Conference on Non-Textual Information on 10 and 11 May 2017 in Hannover

09.01.2017 | Event News

Nothing will happen without batteries making it happen!

05.01.2017 | Event News

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Weltweit erste Solarstraße in Frankreich eingeweiht

16.01.2017 | Energie und Elektrotechnik

Proteinforschung: Der Computer als Mikroskop

16.01.2017 | Biowissenschaften Chemie

Vermeintlich junger Stern entpuppt sich als galaktischer Greis

16.01.2017 | Physik Astronomie