Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Statistiken auf den Grund gehen

16.07.2012
Informatiker der TU Darmstadt haben eine Software entwickelt, die mit Hilfe sogenannter Linked Open Data – enormen Sammlungen von semantisch vernetzten Daten im Internet – Korrelationen sowie Regeln findet und Hypothesen zur Interpretation von Statistiken aufstellt.

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Jörg Feuck | ídw
Weitere Informationen:
http://www.tu-darmstadt.de
http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht Wie benutzerfreundlich ist Virtual Reality?
21.05.2019 | Georg-August-Universität Göttingen

nachricht KI-Forschung in Deutschland: Landkarte der Plattform Lernende Systeme gibt Überblick
21.05.2019 | Lernende Systeme - Die Plattform für Künstliche Intelligenz

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: Geometrie eines Elektrons erstmals bestimmt

Physiker der Universität Basel können erstmals zeigen, wie ein einzelnes Elektron in einem künstlichen Atom aussieht. Mithilfe einer neu entwickelten Methode sind sie in der Lage, die Aufenthaltswahrscheinlichkeit eines Elektrons im Raum darzustellen. Dadurch lässt sich die Kontrolle von Elektronenspins verbessern, die als kleinste Informationseinheit eines zukünftigen Quantencomputers dienen könnten. Die Experimente wurden in «Physical Review Letters» und die Theorie dazu in «Physical Review B» veröffentlicht.

Der Spin eines Elektrons ist ein vielversprechender Kandidat, um als kleinste Informationseinheit (Qubit) eines Quantencomputers genutzt zu werden. Diesen Spin...

Im Focus: The geometry of an electron determined for the first time

Physicists at the University of Basel are able to show for the first time how a single electron looks in an artificial atom. A newly developed method enables them to show the probability of an electron being present in a space. This allows improved control of electron spins, which could serve as the smallest information unit in a future quantum computer. The experiments were published in Physical Review Letters and the related theory in Physical Review B.

The spin of an electron is a promising candidate for use as the smallest information unit (qubit) of a quantum computer. Controlling and switching this spin or...

Im Focus: Optische Superlinsen aus Gold

Oldenburger Forscher entwickeln neues optisches Mikroskop mit extrem hoher Auflösung

Eine kegelförmige Spitze aus Gold bildet das Kernstück eines neuen, extrem leistungsfähigen optischen Mikroskops, das Oldenburger Wissenschaftler in der...

Im Focus: Impfen über die Haut – Gezielter Wirkstofftransport mit Hilfe von Nanopartikeln

Forschenden am Max-Planck-Institut für Kolloid- und Grenzflächenforschung in Potsdam ist es gelungen Nanopartikel so weiterzuentwickeln, dass sie von speziellen Zellen der menschlichen Haut aufgenommen werden können. Diese sogenannten Langerhans Zellen koordinieren die Immunantwort und alarmieren den Körper, wenn Erreger oder Tumore im Organismus auftreten. Mit dieser neuen Technologieplattform könnten nun gezielt Wirkstoffe, zum Beispiel Impfstoffe oder Medikamente, in Langerhans Zellen eingebracht werden, um eine kontrollierte Immunantwort zu erreichen.

Die Haut ist ein besonders attraktiver Ort für die Applikation vieler Medikamente, die das Immunsystem beeinflussen. Die geeigneten Zielzellen liegen in der...

Im Focus: Chaperone halten das Tumorsuppressor-Protein p53 in Schach: Komplexer Regelkreis schützt vor Krebs

Über Leben und Tod einer Zelle entscheidet das Anti-Tumor-Protein p53: Erkennt es Schäden im Erbgut, treibt es die Zelle in den Selbstmord. Eine neue Forschungsarbeit an der Technischen Universität München (TUM) zeigt, dass diese körpereigene Krebsabwehr nur funktioniert, wenn bestimmte Proteine, die Chaperone, dies zulassen.

Eine Krebstherapie ohne Nebenwirkungen, die gezielt nur Tumorzellen angreift – noch können Ärzte und Patienten davon nur träumen. Dabei hat die Natur ein...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

Früherkennung 2.0: Mit Präzisionsmedizin Screeningverfahren weiterentwickeln

23.05.2019 | Veranstaltungen

Kindermediziner tagen in Leipzig

22.05.2019 | Veranstaltungen

Jubiläumskongress zur Radiologie der Zukunft

22.05.2019 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Neuer Schub für ToCoTronics

23.05.2019 | Physik Astronomie

MiLiQuant: Quantentechnologie nutzbar machen

23.05.2019 | Physik Astronomie

Erfolgreiche Forschung zur Ausbreitung von Wellen

23.05.2019 | Interdisziplinäre Forschung

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics