Forum für Wissenschaft, Industrie und Wirtschaft

Hauptsponsoren:     3M 
Datenbankrecherche:

 

Statistiken auf den Grund gehen

16.07.2012
Informatiker der TU Darmstadt haben eine Software entwickelt, die mit Hilfe sogenannter Linked Open Data – enormen Sammlungen von semantisch vernetzten Daten im Internet – Korrelationen sowie Regeln findet und Hypothesen zur Interpretation von Statistiken aufstellt.

Die Interpretation statistischer Erhebungen, z.B. des Korruptionsindex von Transparency International, fällt häufig nicht leicht. „Es gibt zwar Verfahren, die Erklärungen von Statistiken finden. Allerdings können diese nur Daten nutzen, die in der Statistik enthalten sind; weitere Hintergrundinformationen werden dazu nicht hinzugezogen“, so Dr. Heiko Paulheim von der Knowledge Engineering Group am Fachbereich Informatik der TU Darmstadt.

„Daraus entstand schließlich die Idee, Verfahren des Data-Mining, die hier erforscht werden, auf das Semantic Web anzuwenden, um zusätzliche Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.“

Das von Paulheim entwickelte Tool „Explain-a-LOD“ greift auf Linked Open Data (LOD) – enormen frei verfügbaren Sammlungen von semantisch vernetzten Daten im Internet – zu und erstellt aus diesen Informationen automatisch Hypothesen zu beliebigen statistischen Daten. Dazu werden zunächst die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht dann aus den Linked Open Data automatisch nach korrespondierenden Datensätzen und fügt diese den statistischen Ausgangsdaten hinzu.

„Wenn also im Korruptionsindex das Land „Deutschland“ aufgeführt ist, werden Datensätze in Linked Open Data identifiziert, die Informationen zu Deutschland enthalten, und aus diesen zusätzliche Merkmale generiert, z.B. die Bevölkerungszahl, die Mitgliedschaft in der EU und OECD oder die Anzahl von Firmensitzen“, erklärt Paulheim. Um den Umfang der angereicherten statistischen Daten zu reduzieren, werden Merkmale, die voraussichtlich keine brauchbaren Hypothesen liefern, automatisch entfernt.

Nach der Datenaufbereitung erstellt Explain-a-LOD im zweiten Schritt aus den angereicherten Daten automatisch Hypothesen. Hierzu werden zum einen einfache Korrelationsanalysen und zum anderen Regellernverfahren eingesetzt, um komplexere Erklärungsansätze zu entdecken, die mehr als ein Merkmal beinhalten. Schließlich werden dem Nutzer die gefundenen Hypothesen präsentiert, z.B. in Form von Sätzen wie Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt. Dazu muss in der ursprünglichen Statistik nicht erhoben worden sein, ob es sich um OECD-Mitgliedsstaaten handelt oder nicht; dieses Hintergrundwissen wird von Explain-a-LOD automatisch hinzugezogen.

Überraschende und nützliche Hypothesen

Paulheim und seine Kollegen haben ihren Ansatz an verschiedenen Statistiken eingehend getestet, unter anderem an der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International. „Man erhält eine Mischung aus naheliegenden und überraschenden Hypothesen, wie Städte, in denen es im Mai nicht wärmer als 21°C wird, haben eine hohe Lebensqualität; Hauptstädte haben generell eine geringere Lebensqualität als Nicht-Hauptstädte, oder Staaten mit wenigen Schulen und Radiosendern haben einen hohen Korruptionswahrnehmungsindex“, erläutert Paulheim. Eine Evaluierung der Ergebnisse durch Probanden konnte diesen Eindruck bestätigen.

„Die Testpersonen empfanden die Hypothesen überwiegend als überraschend sowie als nicht-trivial und vielfach auch als nützlich“, so Paulheim. Größere Zweifel hätten die Probanden aber bei der Vertrauenswürdigkeit der Hypothesen gehabt. Dies sei auch darauf zurückzuführen, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend sei, wie Paulheim bemerkt.

Explain-a-LOD wurde in den vergangenen Monaten auf mehreren internationalen Konferenzen vorgestellt. Ende Mai erhielt das Tool bei der Extended Semantic Web Conference 2012 auf Kreta Auszeichnungen als „Best In-Use Paper“ und „Best Demo“. Für die Zukunft sind einige Weiterentwicklungen an Explain-a-LOD geplant: u.a. sollen weitere Algorithmen zur Merkmalgenerierung implementiert und zudem weitere Datenbestände aus der LOD-Cloud herangezogen werden.

Weitere Informationen
Das Tool „Explain-a-LOD“ ist auf den Webseiten der Knowledge Engineering Group als Open Source verfügbar:

http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Eine Infografik zum Tool kann unter www.tu-darmstadt.de/pressebilder heruntergeladen werden.

Pressekontakt
Dr. Heiko Paulheim, Tel. 06151 / 16-6634, paulheim@ke.tu-darmstadt.de
MI-Nr. 62/2012, pb/csi

Jörg Feuck | ídw
Weitere Informationen:
http://www.tu-darmstadt.de
http://www.ke.tu-darmstadt.de/resources/explain-a-lod

Weitere Nachrichten aus der Kategorie Informationstechnologie:

nachricht KI, mein Freund und Helfer – Studie zu den Implikationen der Interaktion mit Künstlicher Intelligenz
12.11.2019 | Fraunhofer-Institut für Angewandte Informationstechnik FIT

nachricht Blutzuckersensoren – moderne Wachhunde
12.11.2019 | Universitätsklinikum Regensburg (UKR)

Alle Nachrichten aus der Kategorie: Informationstechnologie >>>

Die aktuellsten Pressemeldungen zum Suchbegriff Innovation >>>

Die letzten 5 Focus-News des innovations-reports im Überblick:

Im Focus: A new quantum data classification protocol brings us nearer to a future 'quantum internet'

The algorithm represents a first step in the automated learning of quantum information networks

Quantum-based communication and computation technologies promise unprecedented applications, such as unconditionally secure communications, ultra-precise...

Im Focus: REANIMA - für ein neues Paradigma der Herzregeneration

Endogene Mechanismen der Geweberegeneration sind ein innovativer Forschungsansatz, um Herzmuskelschäden zu begegnen. Ihnen widmet sich das internationale REANIMA-Projekt, an dem zwölf europäische Forschungszentren beteiligt sind. Das am CNIC (Centro Nacional de Investigaciones Cardiovasculares) in Madrid koordinierte Projekt startet im Januar 2020 und wird von der Europäischen Kommission mit 8 Millionen Euro über fünf Jahre gefördert.

Herz-Kreislauf-Erkrankungen verursachen weltweit die meisten Todesfälle. Herzinsuffizienz ist geradezu eine Epidemie, die neben der persönlichen Belastung mit...

Im Focus: Göttinger Chemiker weisen kleinstmögliche Eiskristalle nach

Temperaturabhängig gefriert Wasser zu Eis und umgekehrt. Dieser Vorgang, in der Wissenschaft als Phasenübergang bezeichnet, ist im Alltag gut bekannt. Um aber ein stabiles Gitter für Eiskristalle zu erreichen, ist eine Mindestanzahl an Molekülen nötig, ansonsten ist das Konstrukt instabil. Bisher konnte dieser Wert nur grob geschätzt werden. Einem deutsch-amerikanischen Forschungsteam unter Leitung des Chemikers Prof. Dr. Thomas Zeuch vom Institut für Physikalische Chemie der Universität Göttingen ist es nun gelungen, die Größe kleinstmöglicher Eiskristalle genau zu bestimmen. Die Forschungsergebnisse sind in der Fachzeitschrift Proceedings of the National Academy of Science erschienen.

Knapp 100 Wassermoleküle sind nötig, um einen Eiskristall in seiner kleinstmöglichen Ausprägung zu formen. Nachweisen konnten die Wissenschaftler zudem, dass...

Im Focus: Verzerrte Atome

Mit zwei Experimenten am Freie-Elektronen-Laser FLASH in Hamburg gelang es einer Forschergruppe unter Führung von Physikern des Max-Planck-Instituts für Kernphysik (MPIK) in Heidelberg, starke nichtlineare Wechselwirkungen ultrakurzer extrem-ultravioletter (XUV) Laserpulse mit Atomen und Ionen hervorzurufen. Die heftige Anregung des Elektronenpaars in einem Heliumatom konkurriert so stark mit dem ultraschnellen Zerfall des angeregten Zustands, dass vorübergehend sogar Besetzungsinversion auftreten kann. Verschiebungen der Energie elektronischer Übergänge in zweifach geladenen Neonionen beobachteten die Wissenschaftler mittels transienter Absorptionsspektroskopie (XUV-XUV Pump-Probe).

Ein internationales Team unter Leitung von Physikern des MPIK veröffentlicht seine Ergebnisse zur stark getriebenen Zwei-Elektronen-Anregung in Helium durch...

Im Focus: Distorted Atoms

In two experiments performed at the free-electron laser FLASH in Hamburg a cooperation led by physicists from the Heidelberg Max Planck Institute for Nuclear physics (MPIK) demonstrated strongly-driven nonlinear interaction of ultrashort extreme-ultraviolet (XUV) laser pulses with atoms and ions. The powerful excitation of an electron pair in helium was found to compete with the ultrafast decay, which temporarily may even lead to population inversion. Resonant transitions in doubly charged neon ions were shifted in energy, and observed by XUV-XUV pump-probe transient absorption spectroscopy.

An international team led by physicists from the MPIK reports on new results for efficient two-electron excitations in helium driven by strong and ultrashort...

Alle Focus-News des Innovations-reports >>>

Anzeige

Anzeige

VideoLinks
Industrie & Wirtschaft
Veranstaltungen

Hochleistungsmaterialien mit neuen Eigenschaften im Fokus von Partnern aus Wissenschaft und Wirtschaft

11.11.2019 | Veranstaltungen

Weniger Lärm in Innenstädten durch neue Gebäudekonzepte

08.11.2019 | Veranstaltungen

Automatisiertes Fahren und Recht

06.11.2019 | Veranstaltungen

VideoLinks
Wissenschaft & Forschung
Weitere VideoLinks im Überblick >>>
 
Aktuelle Beiträge

Effizienz-Weltrekord für organische Solarmodule aufgestellt

11.11.2019 | Energie und Elektrotechnik

Antibiotika: Neuer Wirkstoff wirkt auch bei resistenten Bakterien

11.11.2019 | Biowissenschaften Chemie

Forschungsprojekt kombiniert Digitalisierung und Verfahrenstechnik

11.11.2019 | Energie und Elektrotechnik

Weitere B2B-VideoLinks
IHR
JOB & KARRIERE
SERVICE
im innovations-report
in Kooperation mit academics