Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Smart Wireless Solutions: EU-Großprojekt „DEWI“ liefert Innovationen für eine drahtlose Zukunft
27.04.2017 | Kompetenzzentrum - Das virtuelle Fahrzeug Forschungsgesellschaft mbH

nachricht Ergonomie am Arbeitsplatz: Kamera erkennt ungesunde Bewegungen
24.04.2017 | IPH - Institut für Integrierte Produktion Hannover gGmbH

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: TU Chemnitz präsentiert weltweit einzigartige Pilotanlage für nachhaltigen Leichtbau

Wickelprinzip umgekehrt: Orbitalwickeltechnologie soll neue Maßstäbe in der großserientauglichen Fertigung komplexer Strukturbauteile setzen

Mitarbeiterinnen und Mitarbeiter des Bundesexzellenzclusters „Technologiefusion für multifunktionale Leichtbaustrukturen" (MERGE) und des Instituts für...

Im Focus: Smart Wireless Solutions: EU-Großprojekt „DEWI“ liefert Innovationen für eine drahtlose Zukunft

58 europäische Industrie- und Forschungspartner aus 11 Ländern forschten unter der Leitung des VIRTUAL VEHICLE drei Jahre lang, um Europas führende Position im Bereich Embedded Systems und dem Internet of Things zu stärken. Die Ergebnisse von DEWI (Dependable Embedded Wireless Infrastructure) wurden heute in Graz präsentiert. Zu sehen war eine Fülle verschiedenster Anwendungen drahtloser Sensornetzwerke und drahtloser Kommunikation – von einer Forschungsrakete über Demonstratoren zur Gebäude-, Fahrzeug- oder Eisenbahntechnik bis hin zu einem voll vernetzten LKW.

Was vor wenigen Jahren noch nach Science-Fiction geklungen hätte, ist in seinem Ansatz bereits Wirklichkeit und wird in Zukunft selbstverständlicher Teil...

Im Focus: Weltweit einzigartiger Windkanal im Leipziger Wolkenlabor hat Betrieb aufgenommen

Am Leibniz-Institut für Troposphärenforschung (TROPOS) ist am Dienstag eine weltweit einzigartige Anlage in Betrieb genommen worden, mit der die Einflüsse von Turbulenzen auf Wolkenprozesse unter präzise einstellbaren Versuchsbedingungen untersucht werden können. Der neue Windkanal ist Teil des Leipziger Wolkenlabors, in dem seit 2006 verschiedenste Wolkenprozesse simuliert werden. Unter Laborbedingungen wurden z.B. das Entstehen und Gefrieren von Wolken nachgestellt. Wie stark Luftverwirbelungen diese Prozesse beeinflussen, konnte bisher noch nicht untersucht werden. Deshalb entstand in den letzten Jahren eine ergänzende Anlage für rund eine Million Euro.

Die von dieser Anlage zu erwarteten neuen Erkenntnisse sind wichtig für das Verständnis von Wetter und Klima, wie etwa die Bildung von Niederschlag und die...

Im Focus: Nanoskopie auf dem Chip: Mikroskopie in HD-Qualität

Neue Erfindung der Universitäten Bielefeld und Tromsø (Norwegen)

Physiker der Universität Bielefeld und der norwegischen Universität Tromsø haben einen Chip entwickelt, der super-auflösende Lichtmikroskopie, auch...

Im Focus: Löschbare Tinte für den 3-D-Druck

Im 3-D-Druckverfahren durch Direktes Laserschreiben können Mikrometer-große Strukturen mit genau definierten Eigenschaften geschrieben werden. Forscher des Karlsruher Institus für Technologie (KIT) haben ein Verfahren entwickelt, durch das sich die 3-D-Tinte für die Drucker wieder ‚wegwischen‘ lässt. Die bis zu hundert Nanometer kleinen Strukturen lassen sich dadurch wiederholt auflösen und neu schreiben - ein Nanometer entspricht einem millionstel Millimeter. Die Entwicklung eröffnet der 3-D-Fertigungstechnik vielfältige neue Anwendungen, zum Beispiel in der Biologie oder Materialentwicklung.

Beim Direkten Laserschreiben erzeugt ein computergesteuerter, fokussierter Laserstrahl in einem Fotolack wie ein Stift die Struktur. „Eine Tinte zu entwickeln,...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Internationaler Tag der Immunologie - 29. April 2017

28.04.2017 | Veranstaltungen

Kampf gegen multiresistente Tuberkulose – InfectoGnostics trifft MYCO-NET²-Partner in Peru

28.04.2017 | Veranstaltungen

123. Internistenkongress: Traumata, Sprachbarrieren, Infektionen und Bürokratie – Herausforderungen

27.04.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Über zwei Millionen für bessere Bordnetze

28.04.2017 | Förderungen Preise

Symbiose-Bakterien: Vom blinden Passagier zum Leibwächter des Wollkäfers

28.04.2017 | Biowissenschaften Chemie

Wie Pflanzen ihre Zucker leitenden Gewebe bilden

28.04.2017 | Biowissenschaften Chemie