Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Industrie 4.0: Fremde Eindringlinge im Unternehmensnetz erkennen
16.04.2018 | Fraunhofer-Institut für Sichere Informationstechnologie SIT

nachricht Die Thermodynamik des Rechnens
11.04.2018 | Eidgenössische Technische Hochschule Zürich (ETH Zürich)

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Software mit Grips

Ein computergestütztes Netzwerk zeigt, wie die Ionenkanäle in der Membran von Nervenzellen so verschiedenartige Fähigkeiten wie Kurzzeitgedächtnis und Hirnwellen steuern können

Nervenzellen, die auch dann aktiv sind, wenn der auslösende Reiz verstummt ist, sind die Grundlage für ein Kurzzeitgedächtnis. Durch rhythmisch aktive...

Im Focus: Der komplette Zellatlas und Stammbaum eines unsterblichen Plattwurms

Von einer einzigen Stammzelle zur Vielzahl hochdifferenzierter Körperzellen: Den vollständigen Stammbaum eines ausgewachsenen Organismus haben Wissenschaftlerinnen und Wissenschaftler aus Berlin und München in „Science“ publiziert. Entscheidend war der kombinierte Einsatz von RNA- und computerbasierten Technologien.

Wie werden aus einheitlichen Stammzellen komplexe Körperzellen mit sehr unterschiedlichen Funktionen? Die Differenzierung von Stammzellen in verschiedenste...

Im Focus: Spider silk key to new bone-fixing composite

University of Connecticut researchers have created a biodegradable composite made of silk fibers that can be used to repair broken load-bearing bones without the complications sometimes presented by other materials.

Repairing major load-bearing bones such as those in the leg can be a long and uncomfortable process.

Im Focus: Verbesserte Stabilität von Kunststoff-Leuchtdioden

Polymer-Leuchtdioden (PLEDs) sind attraktiv für den Einsatz in großflächigen Displays und Lichtpanelen, aber ihre begrenzte Stabilität verhindert die Kommerzialisierung. Wissenschaftler aus dem Max-Planck-Institut für Polymerforschung (MPIP) in Mainz haben jetzt die Ursachen der Instabilität aufgedeckt.

Bildschirme und Smartphones, die gerollt und hochgeklappt werden können, sind Anwendungen, die in Zukunft durch die Entwicklung von polymerbasierten...

Im Focus: Writing and deleting magnets with lasers

Study published in the journal ACS Applied Materials & Interfaces is the outcome of an international effort that included teams from Dresden and Berlin in Germany, and the US.

Scientists at the Helmholtz-Zentrum Dresden-Rossendorf (HZDR) together with colleagues from the Helmholtz-Zentrum Berlin (HZB) and the University of Virginia...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

Internationale Konferenz zur Digitalisierung

19.04.2018 | Veranstaltungen

124. Internistenkongress in Mannheim: Internisten rücken Altersmedizin in den Fokus

19.04.2018 | Veranstaltungen

DFG unterstützt Kongresse und Tagungen - Juni 2018

17.04.2018 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Grösster Elektrolaster der Welt nimmt Arbeit auf

20.04.2018 | Interdisziplinäre Forschung

Bilder magnetischer Strukturen auf der Nano-Skala

20.04.2018 | Physik Astronomie

Kieler Forschende entschlüsseln neuen Baustein in der Entwicklung des globalen Klimas

20.04.2018 | Geowissenschaften

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics