Wie lässt sich Datenqualität in der Praxis optimieren?

21.09.2022

Im Rahmen meiner Bachelorthesis beschäftigte ich mich ausführlich mit der Qualität von Daten und erstellte zwei Artefakte, um diese zu optimieren: einen Maßnahmenkatalog und ein dazugehöriges Vorgehensmodell.

Was ist Datenqualität?

Auf der Grundlage von Daten werden Maßnahmen beschlossen und Entscheidungen getroffen. Deshalb spielt es eine große Rolle, wie gut deren Qualität ist. Die Datenqualität gibt den „Grad der Eignung von Daten, den an ihre Erfassung oder Generierung gebundenen Zweck, zu erfüllen“ [1] an. Datenqualität sagt also aus, in wie weit sich die vorliegenden Daten als Basis für weitere Planungen eignen. Datenqualität ist subjektiv und hängt gerade in Unternehmen viel von Gefühlen und individuellen Einschätzungen ab [2]. Vor allem auch weil jedes Unternehmen, jedes System oder jeder Mitarbeiter andere Daten braucht und andere Empfindungen für deren Relevanz hat [3].

Unterscheidung technische und fachliche Datenqualität

Bei doubleSlash und auch im Rahmen der Thesis wird zwischen fachlicher und technischer Datenqualität unterschieden. Wir haben beides wie folgt definiert:

Technische Datenqualität

  • technische Faktoren der Daten und dem System ihrer Speicherung
  • Basislayer (elementaren Grundbausteinen eines Datensatzes)
  • Nullwerte in Spalten oder Zeilen
  • Format der Daten (z.B. XML, JSON, etc.)
  • Formatierung einzelner Werte (z.B. Adressen, Datumsangaben)
  • Anpassen der Einheiten (z.B. Liter, Milliliter)
  • Tabellenstrukturen

Fachliche Datenqualität

  • Inhalt und Verknüpfungen der Daten
  • konzeptionelle Datenmodelle
  • Definition von Kenngrößen, Zuständigkeiten, Begriffen und Abgrenzungen
  • Domainwissen der Mitarbeiter (ausgeprägte Wissensbasis in einem jeweiligen Fachgebiet/Projekt)

Bei der technischen Datenqualität geht es um eine, den Regeln entsprechende, Ausprägung eines Attributs, also eine richtige Syntax. Wohingegen es bei der fachlichen Datenqualität um den logischen Kontext der Daten geht, also eine korrekte Semantik [4]. So kann wie in folgender Abbildung ein Attribut, in dem Fall „Geburtsdatum“, technisch von guter Qualität sein, während die fachliche Qualität mangelhaft ist:

Syntax und Semantik
Abbildung 1: Beispiel für technische und fachliche Datenqualität; Quelle: eigene Darstellung

Kriterien der Datenqualität

Um die Daten- und Informationsqualität zu bewerten, gibt es verschiedene Kriterien. Folgende Abbildung zeigt die 15 wichtigsten Kriterien laut der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ) auf:

DGIQ Dimensionen
Abbildung 2: Die 15 wichtigsten Kriterien für Datenqualität; Quelle: eigene Darstellung in Anlehnung an [3]

Die Kriterien sind in vier Kategorien unterteilt, bei denen jeweils unterschiedliche Aspekte betrachtet werden müssen. Insgesamt wird die Daten- und Informationsqualität von allen Dimensionen gemeinsam bestimmt, da jede Dimension ein kritischer Erfolgsfaktor für ein funktionsfähiges Gesamtsystem ist. Es reicht also nicht, wenn nur bestimmte Dimensionen eine hohe Qualität aufweisen, sondern jede einzelne Dimension muss ein gehobenes Qualitätsniveau besitzen.

Erstellung der Artefakte zur Beurteilung von Datenqualität

Da die Datenqualität eine hohe Relevanz hat, ihre Einschätzung aber oft nicht so trivial ist, habe ich zwei Artefakte erstellt, um die Datenqualität besser beurteilen zu können: einen Maßnahmenkatalog und ein dazugehöriges Vorgehensmodell.

Für die Erstellung dieser Artefakte führte ich Interviews mit Kolleginnen und Kollegen bei doubleSlash, die in Projekten in der E-Mobility Branche tätig sind. Aus den Interviews wurden die Probleme in der Praxis ermittelt und daraus Anforderungen an den Katalog und das Vorgehensmodell festgelegt. Außerdem wurde festgestellt, dass die Wichtigkeit von Datenqualität für den Erfolg eines Projektes vielen Unternehmen auch bewusst ist, es jedoch oft aufgrund der Komplexität an der Umsetzung scheitert. Die Konzepte und Modelle wären in der Theorie vorhanden, doch praktisch kommen diese, aufgrund des zu hohen Aufwands, selten zum Einsatz. Es fehlt eine kompakte Vorgehensweise, wie die Datenqualität optimiert werden kann, die in Projekten auch tatsächlich anwendbar ist.

Genau diese kompakte und übersichtliche Vorgehensweise, um die Datenqualität schrittweise zu verbessern, sollen die beiden erstellten Artefakte bieten.

Maßnahmenkatalog zur Optimierung der Datenqualität

Der entwickelte Maßnahmenkatalog enthält insgesamt 21 Maßnahmen, die zur Optimierung der Datenqualität angewandt werden können. Hier ein kleiner Ausschnitt aus dem Katalog:

Ausschnitt Maßnahmenkatalog
Abbildung 3: Ausschnitt aus dem Maßnahmenkatalog

Es gibt eine detaillierte Version des Katalogs, die konkrete Umsetzungshinweise zur jeweiligen Maßnahme enthält und eine dazugehörige DIN-A4 Seite, welche in einer Tabelle alle Maßnahmen auflistet und in Kategorien unterteilt. Außerdem gibt es in dieser Tabelle für jede Maßnahme eine Hinweis-Spalte, in der kurz erwähnt wird, welche Aspekte in der detaillierteren Version genauer erläutert werden. Als letztes gibt es noch eine Spalte, die angibt, welche Datenqualitätskriterium hauptsächlich durch die Ausführung der Maßnahme verbessert wird.

Aufbau Vorgehensmodell

Das Vorgehensmodell kann als Leitfaden für den Maßnahmenkatalog benutzt werden. Es gibt eine Reihenfolge zur Durchführung der Maßnahmen an und überprüft mit Hilfe von Fragen, ob die Ausführung von bestimmten Maßnahmen einer Kategorie im jeweiligen Anwendungskontext sinnvoll erscheint.

Und so sieht das Vorgehensmodell aus:

Vorgehensmodell
Abbildung 4: Vorgehensmodell zur Optimierung der Datenqualität, Quelle: Eigene Darstellung

Anwendung in der Praxis

Die erstellten Artefakte wendete ich an einem Beispieldatensatz aus der Automobilbranche an. Dazu nahm ich zuerst das Vorgehensmodell heran und folgte anhand der Fragen dem dementsprechenden Pfad. Dabei stellte ich fest, dass in diesem Projekt die organisatorischen Faktoren soweit passen, aber eine Datenbereinigung noch nicht stattfand. Aus diesem Grund wurden die Maßnahmen 13-18 auf den Datensatz angewendet, um ihn besser analysieren zu können.

Vorgehensmodell Praxis
Abbildung 5: Vorgehensmodell in der Anwendung; Quelle: Eigene Darstellung

Bei Maßnahme 13 zum Beispiel wurden die Dubletten entfernt und bei Maßnahme 16 die Zeitstempel in ein einheitliches Format gebracht.

Fazit: Datenqualität lässt sich durch den Maßnahmenkatalog und das Vorgehensmodell effektiver erreichen

Vielen Unternehmen ist die hohe Relevanz einer guten Datenqualität bewusst. Dabei sind die Ansprüche, je nach Branche und Datensatz, different. Die Optimierung der Datenqualität ist ein multikomplexes Thema und dadurch sehr zeitaufwendig. Genau diese Zeit, um sich ausführlich mit der Thematik zu beschäftigen, haben viele Firmen nicht. Aus diesem Grund sollen der Katalog und das Vorgehensmodell einen Mehrwert liefern, indem eine zeitsparende Möglichkeit geboten wird, die individuell passende Lösung für das eigene Unternehmen zu finden. Die Verwendung des Vorgehensmodells und die damit verbundene Ausführung der Maßnahmen ist dabei kein einmaliger Prozess. Um ein permanent hohes Niveau der Datenqualität sicherzustellen, müssen alle Schritte regelmäßig durchlaufen und angepasst werden.

 

Mehr über Softwareentwicklung erfahren

Quellen

[1] Würthele, Volker (2003): Datenqualitätsmetrik für Informationsprozesse. Datenqualitätsmanagement mittels ganzheitlicher Messung der Datenqualität. Dissertation. Eidgenössische Technische Hochschule Zürich, Zürich.
[2] Rohweder, Jan P.; Kasten, Gerhard; Malzahn, Dirk; Piro, Andrea; Schmid, Joachim (2021): Informationsqualität – Definitionen, Dimensionen und Begriffe. In: Knut Hildebrand, Marcus Gebauer und Michael Mielke (Hg.): Daten- und Informationsqualität. Wiesbaden: Springer Fachmedien.
[3] Harrach, Hakim (2010): Risiko-Assessments für Datenqualität. Konzept und Realisierung. Wiesbaden: Vieweg + Teubner Verlag | Springer Fachmedien.
[4] Weber, Kristin; Klingenberg, Christiana (2020): Data Governance: Der Leitfaden für die Praxis. München: Carl Hanser Verlag.

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*Pflichtfelder

*