QUOCA

QUOCA

QUOCA – Qualitätsgetriebene Datenintegration in Semantic Data Lakes

Name des Teilnehmers: Lars Hering

Beschreibung des IT-Forschungsprojekts: Im Zuge der Digitalisierung und der Industrie 4.0 spielen große Mengen von Daten eine zentrale Rolle in Unternehmen und werden zunehmend als Teil ihrer Strategie verstanden. In den vergangenen Jahren sind die Fortschritte in den Bereichen Data Science und dabei insbesondere hinsichtlich Machine Learning enorm groß. Damit gewinnen die Daten mehr an Bedeutung in der Entscheidungsfindung von Unternehmen und werden auch zur Entwicklung neuer datengetriebenen Geschäftsmodellen genutzt. Die Quellen der Daten sind meist vielfältig und reichen von Sensordaten in Fabriken über Product Lifecycle Management Software bis hin zu Daten aus Smartphone Apps. Dennoch schöpfen aktuell laut einer Studie von McKinsey nur wenige Unternehmen das volle Potenzial der Daten, die ihnen zu Verfügung stehen, aus.

In dem Kontext spielt die Qualität der Daten eine wichtige Rolle, denn erfolgreiche datengetriebene Geschäftsmodelle und Unternehmensstrategien, welche sich auf Erkenntnisse aus großen Datenmengen stützen, stehen unter starkem Einfluss der zugrundeliegenden Daten und insbesondere deren Qualität. Gleichzeitig ergab eine Studie des Harvard Business Reviews, dass lediglich 3% der Daten in Unternehmen grundlegende Datenqualitätsaspekte erfüllen. Aus diesem Grund bedarf es neuer Ansätze, um die Qualität der Daten zu quantifizieren und im Integrations- und Analyseprozess zu berücksichtigen.

Ziel des Projektes “QUOCA – Qualitätsgetriebene Datenintegration in Semantic Data Lakes” ist es, im Kontext von Big Data die Qualität der Daten aus einer Vielzahl von heterogenen Datenquellen zu ermitteln und das Wissen über die Qualität im Datenintegrationsprozess zu nutzen, um nachgelagerte Prozesse, wie bspw. Data Analytics und Machine Learning, zu unterstützen und die generierten Erkenntnisse zu verbessern. Der Ansatz basiert dabei auf Semantic Data Lakes als Technologie, um großen Datenmengen aus einer Vielzahl von Datenquellen über eine einheitliche Schnittstelle integrieren zu können.

Software Campus-Partner: KIT, DATEV eG

Umsetzungszeitraum: 1.4.2020 bis zum 31.3.2022