Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Statistiken auf den Grund gehen

16.07.2012
Informatiker der TU Darmstadt haben eine Software entwickelt, die mit Hilfe sogenannter Linked Open Data – enormen Sammlungen von semantisch vernetzten Daten im Internet – Korrelationen sowie Regeln findet und Hypothesen zur Interpretation von Statistiken aufstellt.

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Jörg Feuck | ídw
Weitere Informationen:
http://www.tu-darmstadt.de
http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Maschinelles Lernen: Neue Methode ermöglicht genaue Extrapolation
13.07.2018 | Institute of Science and Technology Austria

nachricht Gegen das Verblassen historischer Dokumente
11.07.2018 | Hochschule für Technik, Wirtschaft und Kultur Leipzig

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Superscharfe Bilder von der neuen Adaptiven Optik des VLT

Das Very Large Telescope (VLT) der ESO hat das erste Licht mit einem neuen Modus Adaptiver Optik erreicht, die als Lasertomografie bezeichnet wird – und hat in diesem Rahmen bemerkenswert scharfe Testbilder vom Planeten Neptun, von Sternhaufen und anderen Objekten aufgenommen. Das bahnbrechende MUSE-Instrument kann ab sofort im sogenannten Narrow-Field-Modus mit dem adaptiven Optikmodul GALACSI diese neue Technik nutzen, um Turbulenzen in verschiedenen Höhen in der Erdatmosphäre zu korrigieren. Damit ist jetzt möglich, Bilder vom Erdboden im sichtbaren Licht aufzunehmen, die schärfer sind als die des NASA/ESA Hubble-Weltraumteleskops. Die Kombination aus exquisiter Bildschärfe und den spektroskopischen Fähigkeiten von MUSE wird es den Astronomen ermöglichen, die Eigenschaften astronomischer Objekte viel detaillierter als bisher zu untersuchen.

Das MUSE-Instrument (kurz für Multi Unit Spectroscopic Explorer) am Very Large Telescope (VLT) der ESO arbeitet mit einer adaptiven Optikeinheit namens GALACSI. Dabei kommt auch die Laser Guide Stars Facility, kurz ...

Im Focus: Diamant – ein unverzichtbarer Werkstoff der Fusionstechnologie

Forscher am KIT entwickeln Fenstereinheiten mit Diamantscheiben für Fusionsreaktoren – Neue Scheibe mit Rekorddurchmesser von 180 Millimetern

Klimafreundliche und fast unbegrenzte Energie aus dem Fusionskraftwerk – für dieses Ziel kooperieren Wissenschaftlerinnen und Wissenschaftler weltweit. Bislang...

Im Focus: Wiener Forscher finden vollkommen neues Konzept zur Messung von Quantenverschränkung

Quantenphysiker/innen der ÖAW entwickelten eine neuartige Methode für den Nachweis von hochdimensional verschränkten Quantensystemen. Diese ermöglicht mehr Effizienz, Sicherheit und eine weitaus geringere Fehleranfälligkeit gegenüber bisher gängigen Mess-Methoden, wie die Forscher/innen nun im Fachmagazin „Nature Physics“ berichten.

Die Vision einer vollständig abhörsicheren Übertragung von Information rückt dank der Verschränkung von Quantenteilchen immer mehr in Reichweite. Wird eine...

Im Focus: Was passiert, wenn wir das Atomgitter eines Magneten plötzlich aufheizen?

„Wir haben jetzt ein klares Bild davon, wie das heiße Atomgitter und die kalten magnetischen Spins eines ferrimagnetischen Nichtleiters miteinander ins Gleichgewicht gelangen“, sagt Ilie Radu, Wissenschaftler am Max-Born-Institut in Berlin. Das internationale Forscherteam fand heraus, dass eine Energieübertragung sehr schnell stattfindet und zu einem neuartigen Zustand der Materie führt, in dem die Spins zwar heiß sind, aber noch nicht ihr gesamtes magnetisches Moment verringert haben. Dieser „Spinüberdruck“ wird durch wesentlich langsamere Prozesse abgebaut, die eine Abgabe von Drehimpuls an das Gitter ermöglichen. Die Forschungsergebnisse sind jetzt in "Science Advances" erschienen.

Magnete faszinieren die Menschheit bereits seit mehreren tausend Jahren und sind im Zeitalter der digitalen Datenspeicherung von großer praktischer Bedeutung....

Im Focus: Erste Beweise für Quelle extragalaktischer Teilchen

Zum ersten Mal ist es gelungen, die kosmische Herkunft höchstenergetischer Neutrinos zu bestimmen. Eine Forschungsgruppe um IceCube-Wissenschaftlerin Elisa Resconi, Sprecherin des Sonderforschungsbereichs SFB1258 an der Technischen Universität München (TUM), liefert ein wichtiges Indiz in der Beweiskette, dass die vom Neutrino-Teleskop IceCube am Südpol detektierten Teilchen mit hoher Wahrscheinlichkeit von einer Galaxie in vier Milliarden Lichtjahren Entfernung stammen.

Um andere Ursprünge mit Gewissheit auszuschließen, untersuchte das Team um die Neutrino-Physikerin Elisa Resconi von der TU München und den Astronom und...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

Innovation – the name of the game

18.07.2018 | Veranstaltungen

Wie geht es unserer Ostsee? Ein aktueller Zustandsbericht

17.07.2018 | Veranstaltungen

Interdisziplinäre Konferenz: Diabetesforscher und Bioingenieure diskutieren Forschungskonzepte

13.07.2018 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Vernetzte Beleuchtung: Weg mit dem blinden Fleck

18.07.2018 | Energie und Elektrotechnik

BIAS erhält Bremens größten 3D-Drucker für metallische Luffahrtkomponenten

18.07.2018 | Verfahrenstechnologie

Verminderte Hirnleistung bei schwachem Herz

18.07.2018 | Medizin Gesundheit

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics