Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Statistiken auf den Grund gehen

16.07.2012
Informatiker der TU Darmstadt haben eine Software entwickelt, die mit Hilfe sogenannter Linked Open Data – enormen Sammlungen von semantisch vernetzten Daten im Internet – Korrelationen sowie Regeln findet und Hypothesen zur Interpretation von Statistiken aufstellt.

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Jörg Feuck | ídw
Weitere Informationen:
http://www.tu-darmstadt.de
http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Ein stabiles magnetisches Bit aus drei Atomen
21.09.2017 | Sonderforschungsbereich 668

nachricht Drohnen sehen auch im Dunkeln
20.09.2017 | Universität Zürich

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Hochpräzise Verschaltung in der Hirnrinde

Es ist noch immer weitgehend unbekannt, wie die komplexen neuronalen Netzwerke im Gehirn aufgebaut sind. Insbesondere in der Hirnrinde der Säugetiere, wo Sehen, Denken und Orientierung berechnet werden, sind die Regeln, nach denen die Nervenzellen miteinander verschaltet sind, nur unzureichend erforscht. Wissenschaftler um Moritz Helmstaedter vom Max-Planck-Institut für Hirnforschung in Frankfurt am Main und Helene Schmidt vom Bernstein-Zentrum der Humboldt-Universität in Berlin haben nun in dem Teil der Großhirnrinde, der für die räumliche Orientierung zuständig ist, ein überraschend präzises Verschaltungsmuster der Nervenzellen entdeckt.

Wie die Forscher in Nature berichten (Schmidt et al., 2017. Axonal synapse sorting in medial entorhinal cortex, DOI: 10.1038/nature24005), haben die...

Im Focus: Highly precise wiring in the Cerebral Cortex

Our brains house extremely complex neuronal circuits, whose detailed structures are still largely unknown. This is especially true for the so-called cerebral cortex of mammals, where among other things vision, thoughts or spatial orientation are being computed. Here the rules by which nerve cells are connected to each other are only partly understood. A team of scientists around Moritz Helmstaedter at the Frankfiurt Max Planck Institute for Brain Research and Helene Schmidt (Humboldt University in Berlin) have now discovered a surprisingly precise nerve cell connectivity pattern in the part of the cerebral cortex that is responsible for orienting the individual animal or human in space.

The researchers report online in Nature (Schmidt et al., 2017. Axonal synapse sorting in medial entorhinal cortex, DOI: 10.1038/nature24005) that synapses in...

Im Focus: Tiny lasers from a gallery of whispers

New technique promises tunable laser devices

Whispering gallery mode (WGM) resonators are used to make tiny micro-lasers, sensors, switches, routers and other devices. These tiny structures rely on a...

Im Focus: Wundermaterial Graphen: Gewölbt wie das Polster eines Chesterfield-Sofas

Graphen besitzt extreme Eigenschaften und ist vielseitig verwendbar. Mit einem Trick lassen sich sogar die Spins im Graphen kontrollieren. Dies gelang einem HZB-Team schon vor einiger Zeit: Die Physiker haben dafür eine Lage Graphen auf einem Nickelsubstrat aufgebracht und Goldatome dazwischen eingeschleust. Im Fachblatt 2D Materials zeigen sie nun, warum dies sich derartig stark auf die Spins auswirkt. Graphen kommt so auch als Material für künftige Informationstechnologien infrage, die auf der Verarbeitung von Spins als Informationseinheiten basieren.

Graphen ist wohl die exotischste Form von Kohlenstoff: Alle Atome sind untereinander nur in der Ebene verbunden und bilden ein Netz mit sechseckigen Maschen,...

Im Focus: Hochautomatisiertes Fahren bei Schnee und Regen: Robuste Warnehmung dank intelligentem Sensormix

Schlechte Sichtverhältnisse bei Regen oder Schnellfall sind für Menschen und hochautomatisierte Fahrzeuge eine große Herausforderung. Im europäischen Projekt RobustSENSE haben die Forscher von Fraunhofer FOKUS mit 14 Partnern, darunter die Daimler AG und die Robert Bosch GmbH, in den vergangenen zwei Jahren eine Softwareplattform entwickelt, auf der verschiedene Sensordaten von Kamera, Laser, Radar und weitere Informationen wie Wetterdaten kombiniert werden. Ziel ist, eine robuste und zuverlässige Wahrnehmung der Straßensituation unabhängig von der Komplexität und der Sichtverhältnisse zu gewährleisten. Nach der virtuellen Erprobung des Systems erfolgt nun der Praxistest, unter anderem auf dem Berliner Testfeld für hochautomatisiertes Fahren.

Starker Schneefall, ein Ball rollt auf die Fahrbahn: Selbst ein Mensch kann mitunter nicht schnell genug erkennen, ob dies ein gefährlicher Gegenstand oder...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Die Erde und ihre Bestandteile im Fokus

21.09.2017 | Veranstaltungen

23. Baltic Sea Forum am 11. und 12. Oktober nimmt Wirtschaftspartner Finnland in den Fokus

21.09.2017 | Veranstaltungen

6. Stralsunder IT-Sicherheitskonferenz im Zeichen von Smart Home

21.09.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

OLED auf hauchdünnem Edelstahl

21.09.2017 | Messenachrichten

Weniger (Flug-)Lärm dank Mathematik

21.09.2017 | Physik Astronomie

In Zeiten des Klimawandels: Was die Farbe eines Sees über seinen Zustand verrät

21.09.2017 | Geowissenschaften