Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Computer als Waschmaschine für verunreinigte Texte - Entwickelte Software "kann" sogar klingonisch

19.09.2014

Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte etwa von Kaffeeflecken oder Durchstreichungen haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt.

Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, veröffentlicht der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“).

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentations-basiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen. Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text. 

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Phantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln, und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in der Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug in der Hand, um diese Herausforderungen angehen zu können.“

Zhenwen Dai and Jörg Lücke (2014): Autonomous Document Cleaning – A Generative Approach to Reconstruct Strongly Corrupted Scanned Texts. In: IEEE Transactions on Pattern Analysis and Machine Intelligence 36(10): 1950-1962, 2004.

Kontakt: Prof. Dr. Jörg Lücke, Arbeitsgruppe Machine Learning und Exzellenzcluster Hearing4all, Tel.: 0441/798-3252 (Sekretariat), E-Mail: joerg.luecke@uni-oldenburg.de

Weitere Informationen:

http://www.uni-oldenburg.de/ml - Arbeitsgruppe "Machine Learning" an der Universität Oldenburg
http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=6777544 - Aufsatz auf IEEE-Website

Dr. Corinna Dahm-Brey | idw - Informationsdienst Wissenschaft

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Smart Living: VDE-Institut entwickelt Cloud-basierte interoperable Testplattform
15.02.2017 | VDE Verband der Elektrotechnik Elektronik Informationstechnik e.V.

nachricht Saarbrücker Informatiker machen „Augmented Reality“ fotorealistisch
15.02.2017 | Universität des Saarlandes

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: „Vernetzte Autonome Systeme“ von acatech und DFKI auf der CeBIT

Auf der IT-Messe CeBIT vom 20. bis 24. März präsentieren acatech – Deutsche Akademie der Technikwissenschaften und das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) in Kooperation mit der Deutschen Messe AG vernetzte Autonome Systeme. In Halle 12 am Stand B 63 erwarten die Besucherinnen und Besucher unter anderem Roboter, die Hand in Hand mit Menschen zusammenarbeiten oder die selbstständig gefährliche Umgebungen erkunden.

Auf der IT-Messe CeBIT vom 20. bis 24. März präsentieren acatech – Deutsche Akademie der Technikwissenschaften und das Deutsche Forschungszentrum für...

Im Focus: Kühler Zwerg und die sieben Planeten

Erdgroße Planeten mit gemäßigtem Klima in System mit ungewöhnlich vielen Planeten entdeckt

In einer Entfernung von nur 40 Lichtjahren haben Astronomen ein System aus sieben erdgroßen Planeten entdeckt. Alle Planeten wurden unter Verwendung von boden-...

Im Focus: Mehr Sicherheit für Flugzeuge

Zwei Entwicklungen am Lehrgebiet Rechnerarchitektur der FernUniversität in Hagen können das Fliegen sicherer machen: ein Flugassistenzsystem, das bei einem totalen Triebwerksausfall zum Einsatz kommt, um den Piloten ein sicheres Gleiten zu einem Notlandeplatz zu ermöglichen, und ein Assistenzsystem für Segelflieger, das ihnen das Erreichen größerer Höhen erleichtert. Präsentiert werden sie von Prof. Dr.-Ing. Wolfram Schiffmann auf der Internationalen Fachmesse für Allgemeine Luftfahrt AERO vom 5. bis 8. April in Friedrichshafen.

Zwei Entwicklungen am Lehrgebiet Rechnerarchitektur der FernUniversität in Hagen können das Fliegen sicherer machen: ein Flugassistenzsystem, das bei einem...

Im Focus: HIGH-TOOL unterstützt Verkehrsplanung in Europa

Forschung am Karlsruher Institut für Technologie (KIT) unterstützt die Europäische Kommission bei der Verkehrsplanung: Anhand des neuen Modells HIGH-TOOL lässt sich bewerten, wie verkehrspolitische Maßnahmen langfristig auf Wirtschaft, Gesellschaft und Umwelt wirken. HIGH-TOOL ist ein frei zugängliches Modell mit Modulen für Demografie, Wirtschaft und Ressourcen, Fahrzeugbestand, Nachfrage im Personen- und Güterverkehr sowie Umwelt und Sicherheit. An dem nun erfolgreich abgeschlossenen EU-Projekt unter der Koordination des KIT waren acht Partner aus fünf Ländern beteiligt.

Forschung am Karlsruher Institut für Technologie (KIT) unterstützt die Europäische Kommission bei der Verkehrsplanung: Anhand des neuen Modells HIGH-TOOL lässt...

Im Focus: Zinn in der Photodiode: nächster Schritt zur optischen On-Chip-Datenübertragung

Schon lange suchen Wissenschaftler nach einer geeigneten Lösung, um optische Komponenten auf einem Computerchip zu integrieren. Doch Silizium und Germanium allein – die stoffliche Basis der Chip-Produktion – sind als Lichtquelle kaum geeignet. Jülicher Physiker haben nun gemeinsam mit internationalen Partnern eine Diode vorgestellt, die neben Silizium und Germanium zusätzlich Zinn enthält, um die optischen Eigenschaften zu verbessern. Das Besondere daran: Da alle Elemente der vierten Hauptgruppe angehören, sind sie mit der bestehenden Silizium-Technologie voll kompatibel.

Schon lange suchen Wissenschaftler nach einer geeigneten Lösung, um optische Komponenten auf einem Computerchip zu integrieren. Doch Silizium und Germanium...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Aufbruch: Forschungsmethoden in einer personalisierten Medizin

24.02.2017 | Veranstaltungen

Österreich erzeugt erstmals Erdgas aus Sonnen- und Windenergie

24.02.2017 | Veranstaltungen

Big Data Centrum Ostbayern-Südböhmen startet Veranstaltungsreihe

23.02.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Fraunhofer HHI auf dem Mobile World Congress mit VR- und 5G-Technologien

24.02.2017 | Messenachrichten

MWC 2017: 5G-Hauptstadt Berlin

24.02.2017 | Messenachrichten

Auf der molekularen Streckbank

24.02.2017 | Biowissenschaften Chemie