Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Statistiken auf den Grund gehen

16.07.2012
Informatiker der TU Darmstadt haben eine Software entwickelt, die mit Hilfe sogenannter Linked Open Data – enormen Sammlungen von semantisch vernetzten Daten im Internet – Korrelationen sowie Regeln findet und Hypothesen zur Interpretation von Statistiken aufstellt.

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Jörg Feuck | ídw
Weitere Informationen:
http://www.tu-darmstadt.de
http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Erster Modularer Supercomputer weltweit geht am Forschungszentrum Jülich in Betrieb
14.11.2017 | Forschungszentrum Jülich GmbH

nachricht Online-Computerspiele verändern das Gehirn
09.11.2017 | Universität Ulm

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Ultrakalte chemische Prozesse: Physikern gelingt beispiellose Vermessung auf Quantenniveau

Wissenschaftler um den Ulmer Physikprofessor Johannes Hecker Denschlag haben chemische Prozesse mit einer beispiellosen Auflösung auf Quantenniveau vermessen. Bei ihrer wissenschaftlichen Arbeit kombinierten die Forscher Theorie und Experiment und können so erstmals die Produktzustandsverteilung über alle Quantenzustände hinweg - unmittelbar nach der Molekülbildung - nachvollziehen. Die Forscher haben ihre Erkenntnisse in der renommierten Fachzeitschrift "Science" publiziert. Durch die Ergebnisse wird ein tieferes Verständnis zunehmend komplexer chemischer Reaktionen möglich, das zukünftig genutzt werden kann, um Reaktionsprozesse auf Quantenniveau zu steuern.

Einer deutsch-amerikanischen Forschergruppe ist es gelungen, chemische Prozesse mit einer nie dagewesenen Auflösung auf Quantenniveau zu vermessen. Dadurch...

Im Focus: Leoniden 2017: Sternschnuppen im Anflug?

Gemeinsame Pressemitteilung der Vereinigung der Sternfreunde und des Hauses der Astronomie in Heidelberg

Die Sternschnuppen der Leoniden sind in diesem Jahr gut zu beobachten, da kein Mondlicht stört. Experten sagen für die Nächte vom 16. auf den 17. und vom 17....

Im Focus: «Kosmische Schlange» lässt die Struktur von fernen Galaxien erkennen

Die Entstehung von Sternen in fernen Galaxien ist noch weitgehend unerforscht. Astronomen der Universität Genf konnten nun erstmals ein sechs Milliarden Lichtjahre entferntes Sternensystem genauer beobachten – und damit frühere Simulationen der Universität Zürich stützen. Ein spezieller Effekt ermöglicht mehrfach reflektierte Bilder, die sich wie eine Schlange durch den Kosmos ziehen.

Heute wissen Astronomen ziemlich genau, wie sich Sterne in der jüngsten kosmischen Vergangenheit gebildet haben. Aber gelten diese Gesetzmässigkeiten auch für...

Im Focus: A “cosmic snake” reveals the structure of remote galaxies

The formation of stars in distant galaxies is still largely unexplored. For the first time, astron-omers at the University of Geneva have now been able to closely observe a star system six billion light-years away. In doing so, they are confirming earlier simulations made by the University of Zurich. One special effect is made possible by the multiple reflections of images that run through the cosmos like a snake.

Today, astronomers have a pretty accurate idea of how stars were formed in the recent cosmic past. But do these laws also apply to older galaxies? For around a...

Im Focus: Pflanzenvielfalt von Wäldern aus der Luft abbilden

Produktivität und Stabilität von Waldökosystemen hängen stark von der funktionalen Vielfalt der Pflanzengemeinschaften ab. UZH-Forschenden gelang es, die Pflanzenvielfalt von Wäldern durch Fernerkundung mit Flugzeugen in verschiedenen Massstäben zu messen und zu kartieren – von einzelnen Bäumen bis hin zu ganzen Artengemeinschaften. Die neue Methode ebnet den Weg, um zukünftig die globale Pflanzendiversität aus der Luft und aus dem All zu überwachen.

Ökologische Studien zeigen, dass die Pflanzenvielfalt zentral ist für das Funktionieren von Ökosys-temen. Wälder mit einer höheren funktionalen Vielfalt –...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics
Veranstaltungen

Technologievorsprung durch Textiltechnik

17.11.2017 | Veranstaltungen

Roboter für ein gesundes Altern: „European Robotics Week 2017“ an der Frankfurt UAS

17.11.2017 | Veranstaltungen

Börse für Zukunftstechnologien – Leichtbautag Stade bringt Unternehmen branchenübergreifend zusammen

17.11.2017 | Veranstaltungen

 
VideoLinks
B2B-VideoLinks
Weitere VideoLinks >>>
Aktuelle Beiträge

Technologievorsprung durch Textiltechnik

17.11.2017 | Veranstaltungsnachrichten

IHP präsentiert sich auf der productronica 2017

17.11.2017 | Messenachrichten

Roboter schafft den Salto rückwärts

17.11.2017 | Innovative Produkte