Name des Teilnehmers: Sebastian Krause
Beschreibung des IT-Forschungsprojekts: Heutige IT-Systeme sind mit einer zunehmenden Flut von Informationen verschiedener Ausprägung konfrontiert. Dazu zählen neben klassischen strukturierten Daten in Form von Datenbanken vor allem textuelle Dokumente, d.h. Informationen in unstrukturierter Form und natürlicher Sprache. Sollen IT-Systeme nun einen Nutzer in die Lage versetzen, Daten aus allen möglichen Informationsquellen gleichartig finden und nutzen zu können, so muss ein solches System auch in der Lage sein, menschliche Sprache verarbeiten zu können. Sprachtechnologie als Werkzeug zur Erstellung solcher Systeme hat in den letzten Jahren viele Fortschritte gemacht, die auch einem breiten Publikum erkennbar waren. Ein Beispiel hierfür ist „Siri“, ein Programm für Smartphones, welches ein natürlichsprachiges, verbales Interface zur Interaktion mit dem Telefon bereitstellt. Siri ist dabei in der Lage, aus natürlich formulierten Sätzen die Kerninformation, d.h. eine Anweisung an das Telefon, zu extrahieren. IBMs „Watson“, ein Frage-Antwort-System, welches in mehreren Runden der Quiz-Fernsehsendung „Jeopardy!“ gegen Menschen antrat, war zusätzlich zum Annehmen von Anweisungen, hier Fragen, auch in der Lage, die Bearbeitung der Anfrage auf unstrukturierten Daten durchzuführen. Dazu hatte Watson während seines Einsatzes Zugriff auf eine große Sammlung von Texten, aus denen gesuchte Informationen extrahiert werden mussten. Googles „Knowledge Graph“ ist eine Wissensdatenbank, welche eingesetzt wird, um Suchanfragen an die Suchmaschine Googles besser interpretieren zu können. Sie dient dazu, Vieldeutigkeit der menschlichen Sprache sowie Ungenauigkeit durch verkürzte Ausdrucksweise aufzuschlüsseln und aufzulösen. Sie ist damit ein gutes Beispiel, wie Weltwissen dienen kann, Sprachtechnologie zu verbessern.
Ziel des Vorhabens ist es, einen Prototyp eines Informationsextraktionssystems zu entwickeln, welcher es erlaubt, automatisch aus Texten bestimmter Zieldomänen strukturierte Daten zu entnehmen. Das System ist hierbei regelbasiert, und soll mittels vorhandenen Domänenwissens, zum Beispiel in Form von unternehmensinternen Datenbanken oder im Internet frei verfügbaren Daten, trainiert werden, ohne dass manuelles Eingreifen nötig ist. Nach der Trainingsphase soll das System in der Anwendung ebenfalls ohne menschliche Kontrolle laufen können. Der Schwerpunkt der Arbeit wird sein, sowohl Abdeckung als auch Genauigkeit des Systems gegenüber dem aktuellen Technikstand zu verbessern. Dazu werden existierende Datenbanken ausgenutzt. Die Daten dienen zuerst zur Generierung einer großen Zahl von Trainingsbeispielen, wodurch das System eine hohe Abdeckung in der Erkennung von Fakten erhält. Später wird ein Mechanismus entwickelt, der aus Texten extrahierte Kandidatenfakten gegen vorhandene Daten abgleicht und auf Konsistenz und Plausibilität prüft. Die aus diesen Vorhaben resultierende Technologie liefert einen Teil der nötigen Bausteine für fortgeschrittene Informationssysteme, die menschliche Nutzer intelligent bei der Befriedigung ihres Informationsbedürfnisses unterstützen. Außerdem bilden die entstehenden Technologien wichtige Bestandteile beispielsweise für Informationssysteme, die Medien permanent nach neuen Berichten oder Meinungen zu einem Thema oder einer Entität durchsuchen und dadurch regelmäßige Überblicke über die Medienpräsenz des Themas oder der Entität erstellen sowie Trends in der Berichterstattung und öffentlichen Meinung zu einem Thema aufzeigen können. Solche Arten von Informationssystemen haben auch eine klare Relevanz für Anwendungen in der Industrie.
Software Campus-Partner: DFKI, Scheer Group GmbH
Umsetzungszeitraum: 01.03.2013 – 28.02.2014