Name des Teilnehmers: Benjamin Hättasch
Beschreibung des IT-Forschungsprojekts: Ungeheure Mengen an Informationen liegen in dieser Welt nur als geschriebener Text, aber nicht in strukturierter Form vor. Wie können Menschen in großen Datenmengen in kurzer Zeit relevante Informationen finden? Wie können sie zentrale Botschaften und den Gesamtinhalt, aber auch wichtige Details verstehen? Wichtig ist dies für Journalist*innen, Jurist*innen, Finanzanalyst*innen, Mediziner*innen und fast alle Wissenschaftler*innen, die regelmäßig große Mengen an Text verarbeiten müssen.
Der überwiegenden Mehrheit dieser Menschen fehlt das technische Wissen, um Extraktionsregeln, reguläre Ausdrücke oder sogar Code zu schreiben, um sie bei dieser Aufgabe zu unterstützen. Im Projekt INTEXPLORE wird daher an Werkzeugen zur Textexploration geforscht, die einfach zu bedienen sind und unabhängig von der genauen Aufgabe eingesetzt werden können.
Davon profitiert zum Beispiel eine Journalistin, die aufgrund einiger kürzlicher Vorfälle einen Artikel über Flugzeugsicherheit schreiben will. Um Fragen wie „welche Unfallarten sind die häufigsten?“ oder „welche Fluglinien sind in die meisten Vorfälle verwickelt?“ zu beantworten, müsste sie zurzeit eine große Menge Unfallberichte der staatlichen Aufsichtsbehörden lesen und die notwendigen Informationen mühsam extrahieren und strukturiert (zum Beispiel in einer Datenbank oder Tabellenkalkulation) ablegen, um dann ihre Frage beantworten zu können. Je nach Folgefragen muss dieser Prozess dann etliche Male wiederholt werden, weil im Vorhinein nicht abschätzbar ist, welche Informationen im weiteren Verlauf relevant sein könnten.
Die Forschung dieses Projekts soll einen Grundstein dafür legen, derartige Anfragen und Hypothesen automatisch zu überprüfen bzw. zu beantworten, indem die relevanten Informationen in einer Textsammlung automatisch identifiziert und für eine approximative Beantwortung aufbereitet werden. Dadurch kann stundenlange manuelle Arbeit eingespart werden – pro Frage.
Software Campus-Partner: TU Darmstadt, Holtzbrinck Publishing Group
Umsetzungszeitraum: 01.03.2021 – 28.02.2023