Next Level Flussdiagramm: Das Multi-Level Sankey Diagramm

23.08.2021

Was genau ist ein Sankey Diagramm? Und wie lässt sich diese Darstellung noch erweitern? Diese und weitere Fragen beantworten wir in diesem Blogbeitrag.

Ein Sankey Diagramm ist eine grafische Darstellung von Mengenflüssen. Dieses Diagramm eignet sich bestens, um eine Aufteilung darzustellen wie zum Beispiel Energieflüsse oder Verkaufszahlen. In dem folgenden Diagramm zeigen die Flüsse die Aufteilung der Umsatzerlöse an. Links sind die Verkaufsregionen dargestellt und rechts die einzelnen Verkaufssegmente. Die Flüsse zeigen auf, wie die Umsätze der Regionen anteilig in die verschiedenen Segmente einfließen:

Abbildung 1: Aufteilung von Umsatzerlösen; Quelle: https://towardsdatascience.com/how-to-make-sankey-diagram-in-tableau-f5f8730e5962

Die Höhe des Umsatzes wird sowohl durch die Breite der Flüsse als auch durch die Größe der Segmente innerhalb der ersten Säule widergespiegelt, d.h. je breiter der Fluss bzw. das Segment, desto höher der Umsatz.

Multi-Level Sankey Diagramm – Was steckt dahinter?

Bei Multi-Level Sankey Diagrammen handelt es sich um ein Sankey Diagramm über mehr als zwei Säulen hinweg. Das folgende Diagramm ist aus einem Projekt eines Dienstleisters und veranschaulicht den Datenaufbereitungsprozess:

Abbildung 2: Datenaufbereitungsprozess aus einen Kundenprojekt; Quelle: eigene Darstellung

Die 3 Säulen stehen dabei alle für einen Schritt in dem ETL-Prozess:

Import Layer:

Hier befinden sich die Workflows, die für das Sammeln der Daten aus verschiedenen Quellen zuständig sind.

Prepared Layer:

Hier befinden sich die Workflows, die gegebenenfalls das Datenschema definieren, die Daten bereinigen und lesbar machen.

Use Case:

Im Use Case selbst befinden sich dann die Workflows, die für die Analysen zuständig sind. Die Aufbereitung der Daten passiert durch Hinzufügen von weiteren Daten, Berechnung von benötigten Kennzahlen, Filterung der Daten, usw.. Diese Aufbereitung kann minimal sein, kann aber auch einen großen Umfang haben.

Im obigen Dashboard steht jedes „Kästchen“ in einer Säule für einen Workflow. Jede Schicht hat ihre eigene Farbe. Die Workflows aus dem Import Layer sind blau, die aus dem Prepared Layer orange und die Use Cases grün. Auf diesem Dashboard ist es jetzt noch etwas schwierig zu erkennen, was genau an Daten aus welchem Workflow hinausfließt und welcher Workflow in welchen hineinfließt. Im Anwendungsbeispiel unten wird gezeigt, wie man dieses Dashboard am besten nutzen kann.

Für ein Sankey Diagramm braucht man einen bestimmten Wert, der in allen Datensätzen vorhanden ist, um die Flüsse darzustellen. Wie zum Beispiel ganz oben gezeigt die Beträge des Umsatzes. Bei diesem Multi-Level Sankey Diagramm gibt es aber keinen einheitlichen Wert, der durch alles durchfließt. Deshalb basieren die Flüsse dort auf der Anzahl der Datensätze, die ein Workflow einliest oder rausschreibt. Damit das Dashboard aber übersichtlich bleibt und nicht ein Kästchen extrem groß wird und man ein anderes Kästchen gar nicht mehr sieht, wurde die Größe der Kästchen hier so berechnet, dass alle gleich groß sind.

Der Nutzen von Multi-Level Sankey Diagrammen

Da ETL-Prozesse sehr komplex sind, sind sie oft ziemlich unübersichtlich und man kann in einem Tool nicht erkennen, was für Zusammenhänge zwischen den einzelnen Workflows bestehen. Die Zusammenhänge sind aber wichtig für z.B. Bugfixing oder um eine Übersicht zu bekommen . Deswegen wurde das Multi-Level Sankey entwickelt, um die Korrelationen zwischen den Workflows sichtbar zu machen. Es erleichtert also z.B. die Fehlersuche, da man weiß welche Workflows zusammenhängen.

So ein Dashboard kann besonders hilfreich sein, wenn man an einem Workflow etwas verändern möchte und dazu überprüfen muss, welche anderen Workflows denn noch dadurch betroffen sind.

Möchte man nun beispielweise wissen, was alles Einfluss auf den Use Case Betriebsleistung hat, wählt man in dem Filter über der Use Cases Schicht nur die Betriebsleistung aus. Das Dashboard wird so angepasst, dass nur noch die Inputs dieses Use Case angezeigt werden:

Sankey Diagram Datenaufbereitungsprozess
Abbildung 3: Filtermöglichkeiten im Multi-Level Sankey Diagramm, Quelle: eigene Darstellung

Man sieht hier also, dass vier Imports Einfluss auf die Betriebsleistung haben. Und zwar Auftragsdaten und Zeiterfassungsdaten direkt ohne vorherige Verarbeitung im Prepared Layer, und Buchungsdaten und Projektdaten erst nach der Verarbeitung im Prepared Layer.

Fazit zur Datenvisualisierung mit Multi-Level Sankey Diagrammen

Das Multi-Level Sankey Diagramm ist eine Erweiterung des Sankey Diagramms und besonders hilfreich, um Korrelationen zwischen Daten darzustellen. Im Vergleich zum normalen Sankey Diagramm zeigt es nämlich nicht nur die Flüsse zwischen zwei Säulen auf, sondern kann auf beliebig viele Säulen angewendet werden. Dies erleichtert zum Beispiel bei ETL-Prozessen die Fehlersuche, da diese Prozesse sehr komplex und unübersichtlich sind. Mit dem Multi-Level Sankey Diagramm lassen sich die Zusammenhänge gut darstellen und erleichtern so durch das schnelle Erkennen der Korrelationen unter anderem das Bugfixing.

Mehr Blogbeiträge zum Thema Datenvisualisierung

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*Pflichtfelder

*