Name des Teilnehmers: Sergey Redyuk
Beschreibung des IT-Forschungsprojekts: Moderne Unternehmen sind stark auf datengetriebene Erkenntnisse angewiesen. Sie setzen komplexe datenwissenschaftliche (DS) Prozesse ein, die aus einem breiten Spektrum von Aufgaben bestehen: Analyse von Geschäftsfällen, Datenerfassung, Integration, Vorverarbeitung, Modellierung und prädiktive Analyse, Experimentieren und Auswertung der Ergebnisse, Bereitstellung, Überwachung, Visualisierung und Berichterstattung. Der Prozess selbst ist hochgradig iterativ und dynamisch, wie es in modernen Geschäfts- und Rechenumgebungen der Fall ist. Datenquellen und Ausführungssysteme sind heterogen, die verantwortlichen Teams sind vielfältig. Hohe Komplexität und Variation der Umgebung erzeugen einen erheblichen Overhead für Analysten, die datenintensive Anwendungen ausführen und verwalten.
In diesem Projekt wollen wir den daraus resultierenden Overhead bei der Überwachung und Inspektion komplexer Data Science Workflows reduzieren, indem wir einen Prototyp des Systems für das End-to-End-Management von Data Science Prozessen entwerfen. Wir konzentrieren uns dabei auf eine gemeinsame Managementaufgabe – die automatisierte Dokumentation von Workflows für datenintensive Experimente, um die Reproduzierbarkeit, den systematischen Vergleich und die weitere Wiederverwendung zu erleichtern. Unter Dokumentation verstehen wir den Prozess der Ableitung einer deklarativen Darstellung des Workflows, die Erfassung der Provenienz und der Metadaten der zugrunde liegenden digitalen Artefakte (z.B. Datensätze, DS-Pipeline, Vorhersagemodell) zur Laufzeit, um den Zustand des Experiments (Softwareabhängigkeiten, Hardwarespezifikation, Versionierung des Quellcodes, Zwischenartefakte, etc.) zu kontrollieren und die Reproduzierbarkeit zu ermöglichen.
Im Rahmen dieses Projekts entwerfen wir die High-Level-Abstraktion für die deklarative Spezifikation der DS-Workflows. Wir implementieren einen Prototyp des Managementsystems, der diese deklarative Zwischendarstellung (IR) automatisch aus einem datenwissenschaftlichen Experiment extrahiert und in einer Experimentdatenbank zur weiteren Reproduzierbarkeit, Suche, Vergleich und Wiederverwendung persistiert.
Software Campus-Partner: TU Berlin, Software AG
Umsetzungszeitraum: 01.01.2020 – 31.12.2021