Informationstechnologie

16.07.2012

Statistiken auf den Grund gehen

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Media Contact

Jörg Feuck ídw

Weitere Informationen:

http://www.tu-darmstadt.de http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Alle Nachrichten aus der Kategorie: Informationstechnologie

Neuerungen und Entwicklungen auf den Gebieten der Informations- und Datenverarbeitung sowie der dafür benötigten Hardware finden Sie hier zusammengefasst.

Unter anderem erhalten Sie Informationen aus den Teilbereichen: IT-Dienstleistungen, IT-Architektur, IT-Management und Telekommunikation.

So soll risikoreiche generative KI geprüft werden

24.04.2024 / Informationstechnologie

Erstmals 6G-Mobilfunk in Alpen getestet

17.04.2024 / Informationstechnologie

Neuromorphes Rechnen mit Sound

17.04.2024 / Informationstechnologie

Sicherheitslücke in Browser-Schnittstelle erlaubt Rechnerzugriff über Grafikkarte

15.04.2024 / Informationstechnologie

Zurück zur Startseite

Kommentare (0) Antworten abbrechen

Neueste Beiträge

Biowissenschaften Chemie

Nanofasern befreien Wasser von gefährlichen Farbstoffen

Farbstoffe, wie sie zum Beispiel in der Textilindustrie verwendet werden, sind ein großes Umweltproblem. An der TU Wien entwickelte man nun effiziente Filter dafür – mit Hilfe von Zellulose-Abfällen. Abfall…

24.04.2024

Biowissenschaften Chemie

Entscheidender Durchbruch für die Batterieproduktion

Energie speichern und nutzen mit innovativen Schwefelkathoden. HU-Forschungsteam entwickelt Grundlagen für nachhaltige Batterietechnologie. Elektromobilität und portable elektronische Geräte wie Laptop und Handy sind ohne die Verwendung von Lithium-Ionen-Batterien undenkbar. Das…

24.04.2024

Medizin Gesundheit

Wenn Immunzellen den Körper bewegungsunfähig machen

Weltweit erste Therapie der systemischen Sklerose mit einer onkologischen Immuntherapie am LMU Klinikum München. Es ist ein durchaus spektakulärer Fall: Nach einem mehrwöchigen Behandlungszyklus mit einem immuntherapeutischen Krebsmedikament hat ein…

24.04.2024

NACHRICHTEN & BERICHTE

Aktuelle News

Nanofasern befreien Wasser von gefährlichen Farbstoffen

Entscheidender Durchbruch für die Batterieproduktion

Wenn Immunzellen den Körper bewegungsunfähig machen

So soll risikoreiche generative KI geprüft werden

Statistiken auf den Grund gehen

Media Contact

Weitere Informationen:

So soll risikoreiche generative KI geprüft werden

Erstmals 6G-Mobilfunk in Alpen getestet

Neuromorphes Rechnen mit Sound

Sicherheitslücke in Browser-Schnittstelle erlaubt Rechnerzugriff über Grafikkarte

Kommentare (0) Antworten abbrechen

Neueste Beiträge

Nanofasern befreien Wasser von gefährlichen Farbstoffen

Entscheidender Durchbruch für die Batterieproduktion

Wenn Immunzellen den Körper bewegungsunfähig machen

Partner & Förderer