Name des Teilnehmers: Yevgeniy Puzikov
Beschreibung des IT-Forschungsprojekts: Das Forschungsprojekt TGTOVE hat sich mit der Entwicklung von Natural Language Generation (NLG) Techniken für eCommerce Anwendungen befasst. Die beiden adressierten Anwendungsfälle waren:
– Re-Generierung von Texten mit den erforderlichen stilistischen Merkmalen unter Beibehaltung des ursprünglichen Inhalts (Änderung des Tonfalls eines Dokuments).
– Generierung textueller Beschreibungen von Life-Science-Produkten aus Mengen von Schlüssel-Wert-Attribut-Paaren.
Als Ergebnis wurde ein Natural Language Generation Framework namens „Sanity Polygon“ entwickelt. Es stellt ein sinnvolles Methodiksystem bereit, das mehrere Aspekte des NLG-Prozesses umfasst, die für eine erfolgreiche Lieferung eines NLG-Produkts zusammenpassen sollten. Im Zuge der Entwicklung des Frameworks wurden Algorithmen zur Textgenerierung entworfen und implementiert.
Es wurde gezeigt, wie man je nach Aufgabenstellung mit einfachen template-basierten Ansätzen im Gegensatz zur Verwendung komplexer statistischer Modelle erfolgreich Probleme lösen kann.
Darüber hinaus wurde ein robustes automatisches System zur Generierung hochwertiger natürlichsprachlicher Aussagen aus strukturierten Inhaltsdarstellungen entwickelt. Es wurde gezeigt, dass ein vom Menschen entworfener Algorithmus rein statistischen Systemen hilft, sich bei der Textgenerierung nicht zu weit von der zugrundeliegenden Bedeutung zu entfernen.
Weiterhin wurde eine Verbesserungsstrategie für gängige Ansätze zur Textgenerierung aus Datentabellen vorgeschlagen und es wurde gezeigt, dass Annotationsprobleme, die häufig dazu führen, dass datengetriebene Modelle den Inhalt halluzinieren, durch Einschränkung des Generierungsprozesses mit Hilfe von Vorlagen gemildert werden können.
Schließlich wurden moderne Techniken zur Steuerung des Generierungsprozesses empirisch evaluiert. Konkret wurden verschiedene Ansätze zur textuellen Stilübertragung verglichen.
Software Campus-Partner: TU Darmstadt, Merck
Umsetzungszeitraum: 01.11.2018 bis 01.11.2020