Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Plattformübergreifende Symbiose von intelligenten Objekten im »Internet of Things« (IoT)
09.12.2016 | Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB

nachricht Von Fußgängern und Fahrzeugen: Uni Ulm und DLR sammeln gemeinsam Daten für das automatisierte Fahren
09.12.2016 | Universität Ulm

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Elektronenautobahn im Kristall

Physiker der Universität Würzburg haben an einer bestimmten Form topologischer Isolatoren eine überraschende Entdeckung gemacht. Die Erklärung für den Effekt findet sich in der Struktur der verwendeten Materialien. Ihre Arbeit haben die Forscher jetzt in Science veröffentlicht.

Sie sind das derzeit „heißeste Eisen“ der Physik, wie die Neue Zürcher Zeitung schreibt: topologische Isolatoren. Ihre Bedeutung wurde erst vor wenigen Wochen...

Im Focus: Electron highway inside crystal

Physicists of the University of Würzburg have made an astonishing discovery in a specific type of topological insulators. The effect is due to the structure of the materials used. The researchers have now published their work in the journal Science.

Topological insulators are currently the hot topic in physics according to the newspaper Neue Zürcher Zeitung. Only a few weeks ago, their importance was...

Im Focus: Rätsel um Mott-Isolatoren gelöst

Universelles Verhalten am Mott-Metall-Isolator-Übergang aufgedeckt

Die Ursache für den 1937 von Sir Nevill Francis Mott vorhergesagten Metall-Isolator-Übergang basiert auf der gegenseitigen Abstoßung der gleichnamig geladenen...

Im Focus: Poröse kristalline Materialien: TU Graz-Forscher zeigt Methode zum gezielten Wachstum

Mikroporöse Kristalle (MOFs) bergen große Potentiale für die funktionalen Materialien der Zukunft. Paolo Falcaro von der TU Graz et al zeigen in Nature Materials, wie man MOFs gezielt im großen Maßstab wachsen lässt.

„Metal-organic frameworks“ (MOFs) genannte poröse Kristalle bestehen aus metallischen Knotenpunkten mit organischen Molekülen als Verbindungselemente. Dank...

Im Focus: Gravitationswellen als Sensor für Dunkle Materie

Die mit der Entdeckung von Gravitationswellen entstandene neue Disziplin der Gravitationswellen-Astronomie bekommt eine weitere Aufgabe: die Suche nach Dunkler Materie. Diese könnte aus einem Bose-Einstein-Kondensat sehr leichter Teilchen bestehen. Wie Rechnungen zeigen, würden Gravitationswellen gebremst, wenn sie durch derartige Dunkle Materie laufen. Dies führt zu einer Verspätung von Gravitationswellen relativ zu Licht, die bereits mit den heutigen Detektoren messbar sein sollte.

Im Universum muss es gut fünfmal mehr unsichtbare als sichtbare Materie geben. Woraus diese Dunkle Materie besteht, ist immer noch unbekannt. Die...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Firmen- und Forschungsnetzwerk Munitect tagt am IOW

08.12.2016 | Veranstaltungen

NRW Nano-Konferenz in Münster

07.12.2016 | Veranstaltungen

Wie aus reinen Daten ein verständliches Bild entsteht

05.12.2016 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Hochgenaue Versuchsstände für dynamisch belastete Komponenten – Workshop zeigt Potenzial auf

09.12.2016 | Seminare Workshops

Ein Nano-Kreisverkehr für Licht

09.12.2016 | Physik Astronomie

Pflanzlicher Wirkstoff lässt Wimpern wachsen

09.12.2016 | Biowissenschaften Chemie