Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Statistiken auf den Grund gehen

16.07.2012
Informatiker der TU Darmstadt haben eine Software entwickelt, die mit Hilfe sogenannter Linked Open Data – enormen Sammlungen von semantisch vernetzten Daten im Internet – Korrelationen sowie Regeln findet und Hypothesen zur Interpretation von Statistiken aufstellt.

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Jörg Feuck | ídw
Weitere Informationen:
http://www.tu-darmstadt.de
http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Quantentechnologie für neue Bildgebung – QUILT
25.04.2018 | Fraunhofer-Institut für Lasertechnik ILT

nachricht Industrie 4.0: Fremde Eindringlinge im Unternehmensnetz erkennen
16.04.2018 | Fraunhofer-Institut für Sichere Informationstechnologie SIT

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: BAM@Hannover Messe: Innovatives 3D-Druckverfahren für die Raumfahrt

Auf der Hannover Messe 2018 präsentiert die Bundesanstalt für Materialforschung und -prüfung (BAM), wie Astronauten in Zukunft Werkzeug oder Ersatzteile per 3D-Druck in der Schwerelosigkeit selbst herstellen können. So können Gewicht und damit auch Transportkosten für Weltraummissionen deutlich reduziert werden. Besucherinnen und Besucher können das innovative additive Fertigungsverfahren auf der Messe live erleben.

Pulverbasierte additive Fertigung unter Schwerelosigkeit heißt das Projekt, bei dem ein Bauteil durch Aufbringen von Pulverschichten und selektivem...

Im Focus: BAM@Hannover Messe: innovative 3D printing method for space flight

At the Hannover Messe 2018, the Bundesanstalt für Materialforschung und-prüfung (BAM) will show how, in the future, astronauts could produce their own tools or spare parts in zero gravity using 3D printing. This will reduce, weight and transport costs for space missions. Visitors can experience the innovative additive manufacturing process live at the fair.

Powder-based additive manufacturing in zero gravity is the name of the project in which a component is produced by applying metallic powder layers and then...

Im Focus: IWS-Ingenieure formen moderne Alu-Bauteile für zukünftige Flugzeuge

Mit Unterdruck zum Leichtbau-Flugzeug

Ingenieure des Fraunhofer-Instituts für Werkstoff- und Strahltechnik (IWS) in Dresden haben in Kooperation mit Industriepartnern ein innovatives Verfahren...

Im Focus: Moleküle brillant beleuchtet

Physiker des Labors für Attosekundenphysik, der Ludwig-Maximilians-Universität und des Max-Planck-Instituts für Quantenoptik haben eine leistungsstarke Lichtquelle entwickelt, die ultrakurze Pulse über einen Großteil des mittleren Infrarot-Wellenlängenbereichs generiert. Die Wissenschaftler versprechen sich von dieser Technologie eine Vielzahl von Anwendungen, unter anderem im Bereich der Krebsfrüherkennung.

Moleküle sind die Grundelemente des Lebens. Auch wir Menschen bestehen aus ihnen. Sie steuern unseren Biorhythmus, zeigen aber auch an, wenn dieser erkrankt...

Im Focus: Molecules Brilliantly Illuminated

Physicists at the Laboratory for Attosecond Physics, which is jointly run by Ludwig-Maximilians-Universität and the Max Planck Institute of Quantum Optics, have developed a high-power laser system that generates ultrashort pulses of light covering a large share of the mid-infrared spectrum. The researchers envisage a wide range of applications for the technology – in the early diagnosis of cancer, for instance.

Molecules are the building blocks of life. Like all other organisms, we are made of them. They control our biorhythm, and they can also reflect our state of...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

infernum-Tag 2018: Digitalisierung und Nachhaltigkeit

24.04.2018 | Veranstaltungen

Fraunhofer eröffnet Community zur Entwicklung von Anwendungen und Technologien für die Industrie 4.0

23.04.2018 | Veranstaltungen

Mars Sample Return – Wann kommen die ersten Gesteinsproben vom Roten Planeten?

23.04.2018 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Silizium als neues Speichermaterial für die Akkus der Zukunft

25.04.2018 | HANNOVER MESSE

IAB-Arbeitsmarktbarometer: Trotz Dämpfer auf gutem Niveau

25.04.2018 | Wirtschaft Finanzen

AWI-Forscher messen Rekordkonzentration von Mikroplastik im arktischen Meereis

25.04.2018 | Geowissenschaften

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics