Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht IT-Sicherheit beim autonomen Fahren
22.06.2018 | Fachhochschule St. Pölten

nachricht Schneller und sicherer Fliegen
21.06.2018 | Fachhochschule St. Pölten

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Leichter abheben: Fraunhofer LBF entwickelt Flugzeugrad aus Faser-Kunststoff-Verbund

Noch mehr Reichweite oder noch mehr Nutzlast - das wünschen sich Fluggesellschaften für ihre Flugzeuge. Wegen ihrer hohen spezifischen Steifigkeiten und Festigkeiten kommen daher zunehmend leichte Faser-Kunststoff-Verbunde zum Einsatz. Bei Rümpfen oder Tragflächen sind permanent Innovationen in diese Richtung zu beobachten. Um dieses Innovationsfeld auch für Flugzeugräder zu erschließen, hat das Fraunhofer-Institut für Betriebsfestigkeit und Systemzuverlässigkeit LBF jetzt ein neues EU-Forschungsvorhaben gestartet. Ziel ist die Entwicklung eines ersten CFK-Bugrads für einen Airbus A320. Dabei wollen die Forscher ein Leichtbaupotential von bis zu 40 Prozent aufzeigen.

Faser-Kunststoff-Verbunde sind in der Luftfahrt bei zahlreichen Bauteilen bereits das Material der Wahl. So liegt beim Airbus A380 der Anteil an...

Im Focus: IT-Sicherheit beim autonomen Fahren

FH St. Pölten entwickelt neue Methode für sicheren Informationsaustausch zwischen Fahrzeugen mittels Funkdaten

Neue technische Errungenschaften wie das Internet der Dinge oder die direkte drahtlose Kommunikation zwischen Objekten erhöhen den Bedarf an effizienter...

Im Focus: Innovative Handprothesensteuerung besteht Alltagstest

Selbstlernende Steuerung für Handprothesen entwickelt. Neues Verfahren lässt Patienten natürlichere Bewegungen gleichzeitig in zwei Achsen durchführen. Forscher der Universitätsmedizin Göttingen (UMG) veröffentlichen Studie im Wissenschaftsmagazin „Science Robotics“ vom 20. Juni 2018.

Motorisierte Handprothesen sind mittlerweile Stand der Technik bei der Versorgung von Amputationen an der oberen Extremität. Bislang erlauben sie allerdings...

Im Focus: Temperaturgesteuerte Faser-Lichtquelle mit flüssigem Kern

Die moderne medizinische Bildgebung und neue spektroskopische Verfahren benötigen faserbasierte Lichtquellen, die breitbandiges Laserlicht im nahen und mittleren Infrarotbereich erzeugen. Wissenschaftlerinnen und Wissenschaftler des Leibniz-Instituts für Photonische Technologien Jena (Leibniz-IPHT) zeigen in einer aktuellen Veröffentlichung im renommierten Fachblatt Optica, dass sie die optischen Eigenschaften flüssigkeitsgefüllter Fasern und damit die Bandbreite des Laserlichts gezielt über die Umgebungstemperatur steuern können.

Das Besondere an den untersuchten Fasern ist ihr Kern. Er ist mit Kohlenstoffdisulfid gefüllt - einer flüssigen chemischen Verbindung mit hoher optischer...

Im Focus: Temperature-controlled fiber-optic light source with liquid core

In a recent publication in the renowned journal Optica, scientists of Leibniz-Institute of Photonic Technology (Leibniz IPHT) in Jena showed that they can accurately control the optical properties of liquid-core fiber lasers and therefore their spectral band width by temperature and pressure tuning.

Already last year, the researchers provided experimental proof of a new dynamic of hybrid solitons– temporally and spectrally stationary light waves resulting...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

Leben im Plastikzeitalter: Wie ist ein nachhaltiger Umgang mit Plastik möglich?

21.06.2018 | Veranstaltungen

Kongress BIO-raffiniert X – Neue Wege in der Nutzung biogener Rohstoffe?

21.06.2018 | Veranstaltungen

DFG unterstützt Kongresse und Tagungen im August 2018

20.06.2018 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Leichter abheben: Fraunhofer LBF entwickelt Flugzeugrad aus Faser-Kunststoff-Verbund

22.06.2018 | Materialwissenschaften

Lernen und gleichzeitig Gutes tun? Baufritz macht‘s möglich!

22.06.2018 | Unternehmensmeldung

GFOS und skip Institut entwickeln gemeinsam Prototyp für Augmented Reality App für die Produktion

22.06.2018 | Unternehmensmeldung

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics