Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Cybersicherheit für die Bahn von morgen
24.03.2017 | Fraunhofer-Institut für Sichere Informationstechnologie SIT

nachricht Schutz vor Angriffen dank flexibler Programmierung
22.03.2017 | FZI Forschungszentrum Informatik am Karlsruher Institut für Technologie

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Wegweisende Erkenntnisse für die Biomedizin: NAD⁺ hilft bei Reparatur geschädigter Erbinformationen

Eine internationale Forschergruppe mit dem Bayreuther Biochemiker Prof. Dr. Clemens Steegborn präsentiert in 'Science' neue, für die Biomedizin wegweisende Forschungsergebnisse zur Rolle des Moleküls NAD⁺ bei der Korrektur von Schäden am Erbgut.

Die Zellen von Menschen und Tieren können Schäden an der DNA, dem Träger der Erbinformation, bis zu einem gewissen Umfang selbst reparieren. Diese Fähigkeit...

Im Focus: Designer-Proteine falten DNA

Florian Praetorius und Prof. Hendrik Dietz von der Technischen Universität München (TUM) haben eine neue Methode entwickelt, mit deren Hilfe sie definierte Hybrid-Strukturen aus DNA und Proteinen aufbauen können. Die Methode eröffnet Möglichkeiten für die zellbiologische Grundlagenforschung und für die Anwendung in Medizin und Biotechnologie.

Desoxyribonukleinsäure – besser bekannt unter der englischen Abkürzung DNA – ist die Trägerin unserer Erbinformation. Für Prof. Hendrik Dietz und Florian...

Im Focus: Fliegende Intensivstationen: Ultraschallgeräte in Rettungshubschraubern können Leben retten

Etwa 21 Millionen Menschen treffen jährlich in deutschen Notaufnahmen ein. Im Kampf zwischen Leben und Tod zählt für diese Patienten jede Minute. Wenn sie schon kurz nach dem Unfall zielgerichtet behandelt werden können, verbessern sich ihre Überlebenschancen erheblich. Damit Notfallmediziner in solchen Fällen schnell die richtige Diagnose stellen können, kommen in den Rettungshubschraubern der DRF Luftrettung und zunehmend auch in Notarzteinsatzfahrzeugen mobile Ultraschallgeräte zum Einsatz. Experten der Deutschen Gesellschaft für Ultraschall in der Medizin e.V. (DEGUM) schulen die Notärzte und Rettungsassistenten.

Mit mobilen Ultraschallgeräten können Notärzte beispielsweise innere Blutungen direkt am Unfallort identifizieren und sie bei Bedarf auch für Untersuchungen im...

Im Focus: Gigantische Magnetfelder im Universum

Astronomen aus Bonn und Tautenburg in Thüringen beobachteten mit dem 100-m-Radioteleskop Effelsberg Galaxienhaufen, das sind Ansammlungen von Sternsystemen, heißem Gas und geladenen Teilchen. An den Rändern dieser Galaxienhaufen fanden sie außergewöhnlich geordnete Magnetfelder, die sich über viele Millionen Lichtjahre erstrecken. Sie stellen die größten bekannten Magnetfelder im Universum dar.

Die Ergebnisse werden am 22. März in der Fachzeitschrift „Astronomy & Astrophysics“ veröffentlicht.

Galaxienhaufen sind die größten gravitativ gebundenen Strukturen im Universum, mit einer Ausdehnung von etwa zehn Millionen Lichtjahren. Im Vergleich dazu ist...

Im Focus: Giant Magnetic Fields in the Universe

Astronomers from Bonn and Tautenburg in Thuringia (Germany) used the 100-m radio telescope at Effelsberg to observe several galaxy clusters. At the edges of these large accumulations of dark matter, stellar systems (galaxies), hot gas, and charged particles, they found magnetic fields that are exceptionally ordered over distances of many million light years. This makes them the most extended magnetic fields in the universe known so far.

The results will be published on March 22 in the journal „Astronomy & Astrophysics“.

Galaxy clusters are the largest gravitationally bound structures in the universe. With a typical extent of about 10 million light years, i.e. 100 times the...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Rund 500 Fachleute aus Wissenschaft und Wirtschaft diskutierten über technologische Zukunftsthemen

24.03.2017 | Veranstaltungen

Lebenswichtige Lebensmittelchemie

23.03.2017 | Veranstaltungen

Die „Panama Papers“ aus Programmierersicht

22.03.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Rund 500 Fachleute aus Wissenschaft und Wirtschaft diskutierten über technologische Zukunftsthemen

24.03.2017 | Veranstaltungsnachrichten

Förderung des Instituts für Lasertechnik und Messtechnik in Ulm mit rund 1,63 Millionen Euro

24.03.2017 | Förderungen Preise

TU-Bauingenieure koordinieren EU-Projekt zu Recycling-Beton von über sieben Millionen Euro

24.03.2017 | Förderungen Preise