Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Sicheres Bezahlen ohne Datenspur
17.10.2017 | Karlsruher Institut für Technologie

nachricht Saarbrücker Forscher erstellen digitale Objekte aus unvollständigen 3-D-Daten
12.10.2017 | Universität des Saarlandes

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Schmetterlingsflügel inspiriert Photovoltaik: Absorption lässt sich um bis zu 200 Prozent steigern

Sonnenlicht, das von Solarzellen reflektiert wird, geht als ungenutzte Energie verloren. Die Flügel des Schmetterlings „Gewöhnliche Rose“ (Pachliopta aristolochiae) zeichnen sich durch Nanostrukturen aus, kleinste Löcher, die Licht über ein breites Spektrum deutlich besser absorbieren als glatte Oberflächen. Forschern am Karlsruher Institut für Technologie (KIT) ist es nun gelungen, diese Nanostrukturen auf Solarzellen zu übertragen und deren Licht-Absorptionsrate so um bis zu 200 Prozent zu steigern. Ihre Ergebnisse veröffentlichten die Wissenschaftler nun im Fachmagazin Science Advances. DOI: 10.1126/sciadv.1700232

„Der von uns untersuchte Schmetterling hat eine augenscheinliche Besonderheit: Er ist extrem dunkelschwarz. Das liegt daran, dass er für eine optimale...

Im Focus: Schnelle individualisierte Therapiewahl durch Sortierung von Biomolekülen und Zellen mit Licht

Im Blut zirkulierende Biomoleküle und Zellen sind Träger diagnostischer Information, deren Analyse hochwirksame, individuelle Therapien ermöglichen. Um diese Information zu erschließen, haben Wissenschaftler des Fraunhofer-Instituts für Lasertechnik ILT ein Mikrochip-basiertes Diagnosegerät entwickelt: Der »AnaLighter« analysiert und sortiert klinisch relevante Biomoleküle und Zellen in einer Blutprobe mit Licht. Dadurch können Frühdiagnosen beispielsweise von Tumor- sowie Herz-Kreislauf-Erkrankungen gestellt und patientenindividuelle Therapien eingeleitet werden. Experten des Fraunhofer ILT stellen diese Technologie vom 13.–16. November auf der COMPAMED 2017 in Düsseldorf vor.

Der »AnaLighter« ist ein kompaktes Diagnosegerät zum Sortieren von Zellen und Biomolekülen. Sein technologischer Kern basiert auf einem optisch schaltbaren...

Im Focus: Neue Möglichkeiten für die Immuntherapie beim Lungenkrebs entdeckt

Eine gemeinsame Studie der Universität Bern und des Inselspitals Bern zeigt, dass spezielle Bindegewebszellen, die in normalen Blutgefässen die Wände abdichten, bei Lungenkrebs nicht mehr richtig funktionieren. Zusätzlich unterdrücken sie die immunologische Bekämpfung des Tumors. Die Resultate legen nahe, dass diese Zellen ein neues Ziel für die Immuntherapie gegen Lungenkarzinome sein könnten.

Lungenkarzinome sind die häufigste Krebsform weltweit. Jährlich werden 1.8 Millionen Neudiagnosen gestellt; und 2016 starben 1.6 Millionen Menschen an der...

Im Focus: Sicheres Bezahlen ohne Datenspur

Ob als Smartphone-App für die Fahrkarte im Nahverkehr, als Geldwertkarten für das Schwimmbad oder in Form einer Bonuskarte für den Supermarkt: Für viele gehören „elektronische Geldbörsen“ längst zum Alltag. Doch vielen Kunden ist nicht klar, dass sie mit der Nutzung dieser Angebote weitestgehend auf ihre Privatsphäre verzichten. Am Karlsruher Institut für Technologie (KIT) entsteht ein sicheres und anonymes System, das gleichzeitig Alltagstauglichkeit verspricht. Es wird nun auf der Konferenz ACM CCS 2017 in den USA vorgestellt.

Es ist vor allem das fehlende Problembewusstsein, das den Informatiker Andy Rupp von der Arbeitsgruppe „Kryptographie und Sicherheit“ am KIT immer wieder...

Im Focus: Neutron star merger directly observed for the first time

University of Maryland researchers contribute to historic detection of gravitational waves and light created by event

On August 17, 2017, at 12:41:04 UTC, scientists made the first direct observation of a merger between two neutron stars--the dense, collapsed cores that remain...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Das Immunsystem in Extremsituationen

19.10.2017 | Veranstaltungen

Die jungen forschungsstarken Unis Europas tagen in Ulm - YERUN Tagung in Ulm

19.10.2017 | Veranstaltungen

Bauphysiktagung der TU Kaiserslautern befasst sich mit energieeffizienten Gebäuden

19.10.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Aufräumen? Nicht ohne Helfer

19.10.2017 | Biowissenschaften Chemie

Neue Biotinte für den Druck gewebeähnlicher Strukturen

19.10.2017 | Materialwissenschaften

Forscher studieren molekulare Konversion auf einer Zeitskala von wenigen Femtosekunden

19.10.2017 | Physik Astronomie