Computer können Textinhalte immer besser verstehen

Obwohl die Zahl der wissenschaftlichen Publikationen ständig weiter steigt und viele dieser Texte digital verfügbar sind, konnten Computer bislang wenig mit ihrem Inhalt anfangen. „Das liegt daran, dass Texte aus Sicht der Informatik weithin unstrukturierte Daten und damit Rechnern nicht unmittelbar zugänglich sind“, sagt Prof. Dr. Udo Hahn von der Friedrich-Schiller-Universität Jena.

Der Computerlinguist ist nach 2007 auch im Jahr 2008 mit dem „IBM Unstructured Information Analytics Innovation Award“ ausgezeichnet worden. Den Preis vergibt das IT-Unternehmen IBM seit 2006 jährlich an wenige, nach einem strengen Auswahlverfahren ausgesuchte Wissenschaftler aus der ganzen Welt.

Grund für die Auszeichnung sind Hahns Forschungsarbeiten zum Software-Konzept UIMA (Unstructured Information Management Architecture). Es stellt den architektonischen Rahmen für die automatische inhaltliche Analyse und Weiterverarbeitung großer, unstrukturierter Textmengen bereit.

Noch vor wenigen Jahren haben Computerlinguisten „jeder für sich alleine im stillen Kämmerlein“ daran gearbeitet, solche überaus komplexen sprachtechnologischen Systeme weithin ohne Arbeitsteilung und Abstimmung miteinander zu entwickeln. Dies hat zu einem undurchschaubaren Wildwuchs an „Implementationslösungen“ geführt, die wechselseitig inkompatibel zueinander waren.

„Mit UIMA gibt es jetzt eine einheitliche und übergreifende Entwicklungsplattform, die es ermöglicht, auf internationaler Ebene mit anderen Experten gemeinsam an einer Lösung zu arbeiten“, nennt Prof. Hahn einen wesentlichen Vorteil. Innerhalb von UIMA werden nun zunehmend Standards entwickelt, die für viele Fragestellungen der automatischen Sprachanalyse bedeutsam sind und die Wiederverwendung bereits existierender Software erlauben. „Damit bietet UIMA auch einen objektiven Testrahmen an, um die Qualität einzelner Analysekomponenten experimentell zu untersuchen und die Leistungsfähigkeit der verschiedenen sprachtechnologischen Anwendungen in ihrer gesamten softwaretechnischen Komplexität zu überprüfen“, erklärt Hahn.

Langfristiges Ziel dieser Aktivitäten sei es, mit computerlinguistischen Verfahren Datenbanken automatisch aufzubauen, welche die wesentlichen Inhalte von Dokumenten strukturiert erfassen. Damit wäre die Zufuhr von fehlenden Informationen nicht mehr von den Zufälligkeiten einer mehr oder minder geglückten Suchanfrage, wie etwa bei der Google-Suche, abhängig, so Hahn. „Mit solch einer automatisch aufgebauten Datenbank können je nach Zielvorgabe bereits jetzt Informationen mit einer Genauigkeit von bis zu 90 Prozent aus Texten herausgezogen und dann gezielt abgefragt werden. Das bedeutet neben der Automatisierung komplexer menschlicher Verstehensprozesse, einer der großen Herausforderungen der Grundlagenforschung in der Informatik, auch einen für unser Alltagshandeln bedeutsamen Zugewinn an informationeller Rationalität“, fügt der Jenaer Computerlinguist an. „Denn Wissen in Texten, die Wissenschaftler aus den Augen verlieren, ist totes Wissen – so, als hätte es die darin gebündelte Forschung nie gegeben“.

Die große praktische Bedeutung dieser Aussagen beweist das enorme Interesse großer Anwenderfirmen: „Global operierende Pharmafirmen und Software-Häuser für den Klinik- und Biotech-Bereich haben schnell erkannt, dass sie auf der Basis von UIMA sowohl ihre Produktivität als auch ihre Wettbewerbsfähigkeit gravierend steigern können“, sagt Prof. Hahn.

Der Preis beweise aber auch, dass „die Jenaer Computerlinguistik vier Jahre nach ihrer Gründung an der Friedrich-Schiller-Universität im internationalen Wettbewerb weithin sichtbare Akzeptanz gewonnen hat und von Experten als gewichtiger Forschungsstandort deutlich wahrgenommen wird“, bemerkt Hahn nicht ohne Stolz. Das Preisgeld in Höhe von 20.000 US-Dollar wird er zweckgebunden für die weitere Forschung in seiner Arbeitsgruppe verwenden.

Kontakt:
Prof. Dr. Udo Hahn
Institut für Germanistische Sprachwissenschaft
der Friedrich-Schiller-Universität Jena
Fürstengraben 30, 07743 Jena
Tel.: 03641 / 944320
E-Mail: udo.hahn[at]uni-jena.de

Media Contact

Manuela Heberer idw

Weitere Informationen:

http://www.uni-jena.de

Alle Nachrichten aus der Kategorie: Förderungen Preise

Zurück zur Startseite

Kommentare (0)

Schreiben Sie einen Kommentar

Neueste Beiträge

Ideen für die Zukunft

TU Berlin präsentiert sich vom 22. bis 26. April 2024 mit neun Projekten auf der Hannover Messe 2024. Die HANNOVER MESSE gilt als die Weltleitmesse der Industrie. Ihr diesjähriger Schwerpunkt…

Peptide auf interstellarem Eis

Dass einfache Peptide auf kosmischen Staubkörnern entstehen können, wurde vom Forschungsteam um Dr. Serge Krasnokutski vom Astrophysikalischen Labor des Max-Planck-Instituts für Astronomie an der Universität Jena bereits gezeigt. Bisher ging…

Wasserstoff-Produktion in der heimischen Garage

Forschungsteam der Frankfurt UAS entwickelt Prototyp für Privathaushalte: Förderzusage vom Land Hessen für 2. Projektphase. Wasserstoff als Energieträger der Zukunft ist nicht frei verfügbar, sondern muss aufwendig hergestellt werden. Das…

Partner & Förderer