Name des Teilnehmers: Isaiah Mulang’ Onando
Beschreibung des IT-Forschungsprojekts: Die Forschung und Anwendung von Wissensgraphen (genannt Knowledge-Graphs – KGs) hat in den letzten Jahren rasant zugenommen, insbesondere auch durch den Einsatz in großen IT-Unternehmen wie Google, Facebook und Microsoft. Knowledge-Graphen bieten eine einfache Möglichkeit, Wissen darzustellen. Die einfachste Form einer Modellierung ist die Darstellung über eine Dreifachbeziehung oder Triples (Subjekt, Prädikat, Objekt). Aufgrund dieser einfachen Darstellung und der Fortschritte in den Techniken des SemanticWebs sind KGs in nahezu allen Bereichen anwendbar. Die Entwicklung einer Softwarelösung zur Erstellung von domänenspezifischen Knowledge-Graphen wird maßgeblich von drei Faktoren beeinflusst: Der exponentiell wachsenden Datenmenge, der Genauigkeit von Machine-Learning Anwendungen und der Verwendbarkeit der Software durch den Endnutzer. Dies bedeutet in erster Linie, dass die aktuell gängige Form der Klassifizierung von unstrukturierten Daten durch menschliche Akteure keine zukunftsträchtige Lösung mehr darstellt. Unterstützende Systeme kombinieren die Rechenleistung einer intelligenten, automatischen Strukturierung mit menschlicher Interpretationsfähigkeit und ermöglichen damit effizientere und effektivere Ergebnisse.
Die Informationsextraktionsmechanismen existierender Systeme sind durch ihren Fokus auf e-Commerce und die Auswertung von Forenbeiträgen nicht allgemein anwendbar. Das erste Ziel dieses Vorhabens ist es daher, die Konstruktion von domänenspezifischen Knowledge-Graphen in einem allgemeinen System zu ermöglichen. Das System soll mittels Natural Language Processing (NLP) aus unstrukturierten Texten relevante Daten extrahieren. Basierend auf diesen Daten soll anschließend durch hierarchische Klassifizierungsalgorithmen der Knowledge-Graph konstruiert werden. Darauffolgend wird ein Frage-Antwort-System zur Anwendung dieser domänenspezifischen KGs erstellt. Dazu werden Methoden der Named Entity Disambiguation (NED), Verlinkung von Relationen (RL) und semantisches Parsing benötigt. Eine dynamische Pipeline kontextsensitiver Komponenten wird hier vorgeschlagen, in der jede Komponente aus mehreren Ansätzen zur Ausführung der spezifischen Aufgabe wie NED, RL usw. besteht. Der jeweils gewählte spezifische Ansatz hängt von der Art der gestellten Frage ab. Ein funktionierendes QA-über-Domain-KG-System und die Erweiterung des Standes der Technik in Form von wissenschaftlichen Publikationen sind die beiden Hauptziele, die als Ergebnis dieses Vorhabens angestrebt werden.
Software Campus-Partner: Fraunhofer IAIS, DATEV
Umsetzungszeitraum: 01.02.2020 – 30.11.2021