Herausforderungen und Anforderungen des Datenqualitätsmanagements
Unternehmen stehen vor der Aufgabe, dass sie einerseits die gesellschaftlichen Trends der Digitalisierung (Kap. 1.1) nutzbar machen und gleichzeitig Antworten auf die großen Treiber für Datenqualität (Kap. 1.2) finden müssen. Daraus ergibt sich eine Anzahl von konkreten Herausforderungen und Leistungsanforderungen, die Unternehmen beim qualitätsorientierten Management von Stammdaten (kurz Datenqualitätsmanagement DQM) berücksichtigen müssen.
Tab. 1.1 Die zehn großen Datenmanagement-Herausforderungena
Rang |
Herausforderung |
Punktwert |
1 |
Datenqualität |
52 |
2 |
Transparenz über Datennutzung |
36 |
3 |
Redundante Datenpflege |
33 |
4 |
Manuelle Datenpflege |
31 |
5 |
Limitationen zentraler Datenarchitekturen (Inflexibilität, Bürokratie etc.) |
25 |
6 |
Semantische Integration |
18 |
Trennung zwischen „strukturierten“ und „unstrukturierten“ Daten |
18 |
|
8 |
Datenschutz |
14 |
9 |
Trennung zwischen OLAP (Online Analytical Processing) und OLTP (Online Transactional Processing) |
5 |
10 |
Management von „Klassen“ von Dingen, keine Instanzen |
1 |
a Die Teilnehmer der Befragung waren aufgefordert, aus einer Liste von zehn Einträgen die fünf größten Herausforderungen im Datenmanagement zu nennen, wobei der Wert „1“ die größte und
„5“ die fünftgrößte Herausforderung darstellte. Bei 17 Teilnehmern ergeben sich ein Maximalwert von 85 und ein Minimalwert von 0 Punkten pro Eintrag.
Herausforderungen im Umgang mit Daten
Das Kompetenzzentrum Corporate Data Quality (CC CDQ) an der Universität St. Gallen und dem Fraunhofer Institut für Materialfluss und Logistik in Dortmund greift die größten Herausforderungen im Datenmanagement auf und entwickelt dafür neue Lösungsansätze. Im Rahmen des CC CDQ wurden im April 2013 Datenmanager aus unterschiedlichen Industrien zu den größten Herausforderungen für das Datenmanagement befragt (Österle und Otto 2014). Tabelle 1.1 zeigt als Ergebnis dieser Fokusgruppe die Rangfolge der Herausforderungen.
Die Verbesserung und die Sicherung der Datenqualität gelten den Teilnehmern der Fokusgruppe mit Abstand als die größte Herausforderung. Datenqualität ist ein Maß dafür, in welchem Umfang die Daten geeignet sind, die Anforderungen der Geschäftsprozesse zu erfüllen, in denen sie verwendet werden (Otto et al. 2011). Datenqualität lässt sich in verschiedenen Datenqualitätsdimensionen messen, wie z. B. Konsistenz, Aktualität und Vollständigkeit.
Als zweitgrößte Herausforderung sehen die Teilnehmer der Fokusgruppe die Transparenz über die Datennutzung. Insbesondere in großen Unternehmen mit komplexen Anwendungssystemlandschaften ist oftmals unklar, wo und wie Daten ins Unternehmen gelangen, in welchem System sie federführend gespeichert sind und was nach ihrer Verteilung in lokale Anwendungssysteme mit ihnen geschieht. White und Radcliffe (2010) verwenden in diesem Zusammenhang den Begriff der mangelnden „Downstream Visibility“ von Daten.
Redundante Datenpflege gilt als drittgrößte Herausforderung. Ein Beispiel ist die Erfassung und Pflege von Lieferantenstammdaten in unterschiedlichen Geschäftsbereichen desselben Unternehmens oder bei verschiedenen Unternehmen mit überlappender Lieferantenbasis. Typischerweise erfasst und pflegt jedes Unternehmen die Daten separat, obwohl alle die gleichen Daten benötigen. An wie vielen Orten werden z. B. die Adressdaten von IBM gepflegt? Wie oft muss ein Konsument seine Adresse und andere Informationen eingeben? Wäre es nicht von Vorteil, wenn Portale wie Facebook versuchten, dem Konsumenten redundante Identifikationen abzunehmen und seine Identität allen Interessierten und Berechtigten verfügbar zu machen?
Eine vierte Herausforderung ist die manuelle Datenpflege, die bei Medienbrüchen in der Datenverarbeitung auftritt (Fleisch und Österle 2004). Ein Beispiel für einen Medienbruch ist das Abtippen oder Einscannen von Kundenstammdaten von einer Visitenkarte in ein Customer Relationship Management (CRM)-System. Manuelle Datenpflege ist anfälliger für Fehler und gefährdet damit die Datenqualität.
Als fünfte große Herausforderung gelten die Limitationen zentraler Datenarchitekturen. Denn zukünftig werden immer mehr Daten von externen Quellen beschafft und zur Zeit des Bedarfs im Geschäftsprozess zur Verfügung gestellt. Ein Beispiel sind Angaben zum CO2-Ausstoß bei der Produktion und Distribution von Konsumgütern. Konsumgüter-hersteller, die zu derartigen Angaben z. B. in Frankreich verpflichtet sind (AFNOR 2009), werden diese Daten nicht in zentralen (ERP)-Systemen führend verwalten, sondern auf autorisierte Datenbanken von Drittanbietern zugreifen.
Die semantische Integration von Daten ist die sechstwichtigste Herausforderung im Datenmanagement. In der Datenintegration ist Semantik definiert als die Interpretation von Daten in einem bestimmten Anwendungsfall (Ziegler und Dittrich 2007). Ein Beispiel ist der Begriff „Kunde“, der in der Buchhaltung eines Unternehmens als „aktiver Kunde“ verstanden wird und im Vertrieb als „potentieller Kunde“.
Ebenfalls auf dem sechsten Rang ist die Trennung zwischen „strukturierten“ und
„unstrukturierten“ Daten genannt. Als strukturierte Daten werden alphanumerische Daten bezeichnet, die oftmals gemäß einem relationalen Datenbankschema organisiert sind. Als unstrukturiert gelten Texte, Audios, Videos, Bilder, Tweets und Zeichnungen. Die Trennung zwischen diesen beiden Datenarten stellt Unternehmen vor Probleme, wenn
z. B. im Berichtswesen neben Umsätzen auch Daten aus Social-Networking-Plattformen oder Verbraucherportalen analysiert werden sollen (Baars und Kemper 2008).
Platz 8 der größten Herausforderungen im Datenmanagement nimmt der Datenschutz ein. Sony wurde z. B. 2011 Opfer eines Hacker-Angriffs auf sein PlayStation-Netzwerk, bei dem auch Daten von Nutzern gestohlen wurden. Wurde das Unternehmen zu Beginn des Jahres 2013 in Großbritannien zu Strafzahlungen in Höhe von 250.000 GBP verurteilt, weil der Vorfall nach Ansicht des Information Commissioner's Office (ICO) hätte „verhindert werden können“ (BBC 2013), so wog doch der Reputationsverlust viel schwerer. Die neuntgrößte Herausforderung im Datenmanagement ist die Trennung zwischen „Online Analytical Processing“ (OLAP) und „Online Transactional Processing (OLTP)“. Häufig werden Daten in OLTP-Systemen wie ERP-Systemen erfasst, gepflegt und anschließend extrahiert, um dann nach Transformationsund Bereinigungsschritten in OLAP-Systeme wie Data Warehouses und Business Intelligence-Anwendungen importiert zu werden. Die Herausforderung besteht darin, dass die Daten somit redundant gehalten werden, was zusätzliche Aufwände hervorruft und die Datenqualität gefährdet.
Auf Platz 10 rangiert die Herausforderung, in Zukunft nicht allein Klassen von Entitäten zu bewirtschaften, sondern Instanzen. Durch RFID-Technologien kann ein Spezialmaschinenbauer jedes einzelne Ersatzteil identifizieren. Dieser Ansatz unterscheidet sich von der klassischen Datenverarbeitung, bei der ein Stammdatensatz inkl. einer Teilenummer die Teileklasse beschreibt und Bestandsdaten den jeweiligen Lagerbestand. Das Datenmanagement muss mit dieser Zunahme der Datensätze umgehen können.
Anforderungen an das Datenqualitätsmanagement
Die Beispiele in den Kap. 1.1 und 1.2 haben gezeigt, dass sich diese Anforderungen durch die Digitalisierung noch verschärfen. Tabelle 1.2 fasst die wichtigsten Anforderungen an ein erfolgreiches Datenqualitätsmanagement zusammen, die von den „Top 8“ der Herausforderungen abgeleitet werden können.
Tab. 1.2 Anforderungen an das Datenqualitätsmanagement
Tab. 1.2 (Fortsetzung)