Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Computer mit Köpfchen
18.08.2017 | Albert-Ludwigs-Universität Freiburg im Breisgau

nachricht Pepper, der neue Kollege im Altenheim
17.08.2017 | Universität Siegen

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Unterwasserroboter soll nach einem Jahr in der arktischen Tiefsee auftauchen

Am Dienstag, den 22. August wird das Forschungsschiff Polarstern im norwegischen Tromsø zu einer besonderen Expedition in die Arktis starten: Der autonome Unterwasserroboter TRAMPER soll nach einem Jahr Einsatzzeit am arktischen Tiefseeboden auftauchen. Dieses Gerät und weitere robotische Systeme, die Tiefsee- und Weltraumforscher im Rahmen der Helmholtz-Allianz ROBEX gemeinsam entwickelt haben, werden nun knapp drei Wochen lang unter Realbedingungen getestet. ROBEX hat das Ziel, neue Technologien für die Erkundung schwer erreichbarer Gebiete mit extremen Umweltbedingungen zu entwickeln.

„Auftauchen wird der TRAMPER“, sagt Dr. Frank Wenzhöfer vom Alfred-Wegener-Institut, Helmholtz-Zentrum für Polar- und Meeresforschung (AWI) selbstbewusst. Der...

Im Focus: Mit Barcodes der Zellentwicklung auf der Spur

Darüber, wie sich Blutzellen entwickeln, existieren verschiedene Auffassungen – sie basieren jedoch fast ausschließlich auf Experimenten, die lediglich Momentaufnahmen widerspiegeln. Wissenschaftler des Deutschen Krebsforschungszentrums stellen nun im Fachjournal Nature eine neue Technik vor, mit der sich das Geschehen dynamisch erfassen lässt: Mithilfe eines „Zufallsgenerators“ versehen sie Blutstammzellen mit genetischen Barcodes und können so verfolgen, welche Zelltypen aus der Stammzelle hervorgehen. Diese Technik erlaubt künftig völlig neue Einblicke in die Entwicklung unterschiedlicher Gewebe sowie in die Krebsentstehung.

Wie entsteht die Vielzahl verschiedener Zelltypen im Blut? Diese Frage beschäftigt Wissenschaftler schon lange. Nach der klassischen Vorstellung fächern sich...

Im Focus: Fizzy soda water could be key to clean manufacture of flat wonder material: Graphene

Whether you call it effervescent, fizzy, or sparkling, carbonated water is making a comeback as a beverage. Aside from quenching thirst, researchers at the University of Illinois at Urbana-Champaign have discovered a new use for these "bubbly" concoctions that will have major impact on the manufacturer of the world's thinnest, flattest, and one most useful materials -- graphene.

As graphene's popularity grows as an advanced "wonder" material, the speed and quality at which it can be manufactured will be paramount. With that in mind,...

Im Focus: Forscher entwickeln maisförmigen Arzneimittel-Transporter zum Inhalieren

Er sieht aus wie ein Maiskolben, ist winzig wie ein Bakterium und kann einen Wirkstoff direkt in die Lungenzellen liefern: Das zylinderförmige Vehikel für Arzneistoffe, das Pharmazeuten der Universität des Saarlandes entwickelt haben, kann inhaliert werden. Professor Marc Schneider und sein Team machen sich dabei die körpereigene Abwehr zunutze: Makrophagen, die Fresszellen des Immunsystems, fressen den gesundheitlich unbedenklichen „Nano-Mais“ und setzen dabei den in ihm enthaltenen Wirkstoff frei. Bei ihrer Forschung arbeiteten die Pharmazeuten mit Forschern der Medizinischen Fakultät der Saar-Uni, des Leibniz-Instituts für Neue Materialien und der Universität Marburg zusammen Ihre Forschungsergebnisse veröffentlichten die Wissenschaftler in der Fachzeitschrift Advanced Healthcare Materials. DOI: 10.1002/adhm.201700478

Ein Medikament wirkt nur, wenn es dort ankommt, wo es wirken soll. Wird ein Mittel inhaliert, muss der Wirkstoff in der Lunge zuerst die Hindernisse...

Im Focus: Exotische Quantenzustände: Physiker erzeugen erstmals optische „Töpfe" für ein Super-Photon

Physikern der Universität Bonn ist es gelungen, optische Mulden und komplexere Muster zu erzeugen, in die das Licht eines Bose-Einstein-Kondensates fließt. Die Herstellung solch sehr verlustarmer Strukturen für Licht ist eine Voraussetzung für komplexe Schaltkreise für Licht, beispielsweise für die Quanteninformationsverarbeitung einer neuen Computergeneration. Die Wissenschaftler stellen nun ihre Ergebnisse im Fachjournal „Nature Photonics“ vor.

Lichtteilchen (Photonen) kommen als winzige, unteilbare Portionen vor. Viele Tausend dieser Licht-Portionen lassen sich zu einem einzigen Super-Photon...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

European Conference on Eye Movements: Internationale Tagung an der Bergischen Universität Wuppertal

18.08.2017 | Veranstaltungen

Einblicke ins menschliche Denken

17.08.2017 | Veranstaltungen

Eröffnung der INC.worX-Erlebniswelt während der Technologie- und Innovationsmanagement-Tagung 2017

16.08.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Eine Karte der Zellkraftwerke

18.08.2017 | Biowissenschaften Chemie

Chronische Infektionen aushebeln: Ein neuer Wirkstoff auf dem Weg in die Entwicklung

18.08.2017 | Biowissenschaften Chemie

Computer mit Köpfchen

18.08.2017 | Informationstechnologie