Datenmanipulation ade – Hintergrundinfos bieten und Diagramme hinterfragen (Teil 1)

14.12.2022

Das war vor knapp 2,5 Jahren unser Fazit vom Blogbeitrag zur „Hohen Kunst der Datenmanipulation“. Und genau hier wollen wir in einer kleinen Blog-Reihe wieder einsteigen.

 

Das Thema der Datenmanipulation wird wichtiger denn je. Mittlerweile nutzt jeder die Datenvisualisierung, um seine Argumente zu untermauern. Ein prominentes Beispiel ist Robert Habeck, als er seine Eröffnungsbilanz zum Thema Klimaschutz vorlegte.

Das Erstellen einer Datenvisualisierung, sei es im Kontext eines Dashboards oder einer einzelnen Visualisierung, gelingt manchmal gut und manchmal weniger gut. Dies kann sowohl gewollt als auch ungewollt geschehen. Ein Negativbeispiel hierfür sind die US Wahlen 2020: einige Medien und gewisse Kandidaten haben wissentlich Daten manipuliert oder Visualisierungen so dargestellt, dass Lesern eine bestimmte Meinung suggeriert wird.

Es zeigt uns, was für eine Macht Daten haben und wie wichtig es ist diese korrekt darzustellen und zu interpretieren. In unserer Blog-Reihe wollen wir genau auf diese beiden Themen eingehen. Das heutige Thema: Worauf muss geachtet werden, wenn man Visualisierungen erstellt?

Visualisierungen richtig erstellen

Worauf muss bei der Erstellung oder eines Diagrammes geachtet werden? Wir zeigen es anhand verschiedener Beispiele.

Die Achsen

Mit den Achsen lässt sich am einfachsten die Wahrnehmung der Leser beeinflussen. Auch wenn das Diagramm dann vielleicht optisch schöner aussieht und man auch nur den Zeitraum betrachtet wo man meint, dieser sei am wichtigsten, sollten man auf solche Schritte verzichten. Ausnahmen sind hier:

  • wenn das Diagramm oder Dashboard nur von sehr wenigen Personen genutzt wird und
  • wenn darauf hingewiesen wird, dass man nicht die gesamten Daten betrachtet.

Als Beispiel: Der durchschnittliche Benzinpreis in Cent pro Jahr in Deutschland

Die eigentliche Darstellung wäre folgende:

Benzinpreis komplett
Abbildung 1: Benzinpreis in Cent pro Jahr in Deutschland; Bildquelle: Eigene Darstellung in Tableau

Man kann sehen, dass der Preis seit 1972 stetig gewachsen ist – mit mehreren Aufs und Abs.

Nun könnte man verschiedene Aussagen treffen und so den Leser beeinflussen.

Eine mögliche wäre zum Beispiel: In den letzten Jahren sind die Preise eher gesunken.

Benzinpreis eingeschränkt
Abbildung 2: Benzinpreis in Cent pro Jahr in Deutschland; Bildquelle: Eigene Darstellung in Tableau

     Benzinpreis eingeschränkt gestaucht

 

Wenn ich nur die Jahre 2012 – 2020 anschaue und bewusst die letzten beiden Jahre weglasse, stimmt das sogar. In diesem Fall wurden beide Achsen eingeschränkt und nur ein kleiner Ausschnitt betrachtet. Wenn jetzt noch die X-Achsen gestaucht wird, bekommt man ein noch überzeugenderes Ergebnis. Dass die Preise aber vergleichsweise mehr gestiegen sind als gesunken, wird durch solch eine Ansicht unterschlagen.

 

Der Durchschnitt

Sehr gefährlich ist auch der Durchschnitt. Man kann zwei unterschiedliche Durchschnitte betrachten, zum einen das arithmetische Mittel als auch den Median.

Beim arithmetischen Mittel (grüne Linie) wird der Mittelwert errechnet, z.B. Gesamtumsatz / Anzahl der Standorte. Das Problem hierbei ist, dass eventuell den meisten Umsatz Standort A gemacht hat, Standort B nur einen sehr geringen und Standort C einen noch geringeren. Diese Information geht mit dem arithmetischen Mittel verloren. Der Median betrachtet, welcher Standort genau in der Mitte vom Umsatz ist. Ein Standort macht dann mehr Umsatz als der Median und der zweite weniger als der Median. (Info Box)

Durch die Verwendung des arithmetischen Mittels suggeriere ich meinem Kunden, dass alle meine Standorte einen guten Umsatz machen. Dass Standort A den meisten Anteil am Umsatz ausmacht, geht bei diesem Durchschnitt verloren.

Umso wichtiger ist die Darstellung solcher Werte. Denn auch die Zahl 1.000.000 als Median, sagt mir nicht wirklich viel über die Verhältnisse aus.
Eine Möglichkeit der Darstellung ist das Boxplot-Diagramm. Es fasst alle Standorte in einem Diagramm zusammen und zeigt die Verteilung aller Standorte an.

Gesamtumsatz pro Standort
Abbildung 3: Gesamtumsatz pro Standort; Bildquelle: Eigene Darstellung in Tableau

Datengrundlage und dessen Störfaktoren

Es gibt verschiedene Störfaktoren, die die Daten beeinflussen, können aber nicht explizit in einer Statistik berücksichtig werden.

Als Beispiel: Die Todesrate zweier Städte. Stadt A hat eine höhere Todesrate als Stadt B.

Todesrate pro Einwohner_1
Abbildung 4: Todesrate pro 100.000 Einwohner; Bildquelle: Eigene Darstellung in Tableau

Schaut auf den ersten Blick logisch aus und wahrscheinlich würde die Wahl des Lebensstandortes auf Stadt B fallen. Schauen wir uns die Daten mal genauer an:

Todesrate Daten
Abbildung 5: Datenübersicht Todesrate pro Stadt; Bildquelle: https://www.youtube.com/watch?v=lF-qkCceQZ8, letzter Aufruf 06.12.2022

Hier kann man das Alter als Störfaktor identifizieren. Stadt A eine viel höhere Anzahl an älteren Leuten als Stadt B. Die Sterbewahrscheinlichkeit für ältere Menschen ist natürlich höher als für junge Menschen. Durch diesen Störfaktor wird die Gesamtsterblichkeit so verzerrt, dass sie komplett gegenteilige Erkenntnisse liefert als die Todesrate nach Altersgruppe.
Also was tun?

Bei kleineren Datenmengen könnte man wie hier im Beispiel eine klassische Tabelle mit ins Dashboard einbinden. Dies wird bei größeren Mengen jedoch ein Problem.

Hierfür gibt es drei Möglichkeiten:

  1. Wenn man keinen Einfluss auf die Datenerhebung hat, sollte man neben den Anteilen auch die absoluten Zahlen mit einbringen. Entweder durch ein extra Diagramm oder in das bestehende Diagramm mit einbinden.
    Todesrate pro Einwohner_2
    Abbildung 6: Population pro Altersgruppe und Stadt; Bildquelle: Eigene Darstellung in Tableau
  2. Adjustieren: Die Ergebnisse im Nachhinein anpassen und die Störfaktoren rausrechnen. Besser: Die Störfaktoren von Beginn an ausschließen.
  3. Besteht der Einfluss auf die Datenerhebung, weil man diese z.B. selber sammelt, kann man folgende Punkte beachten, die meine Kollegin Julia Görlach identifiziert hat:
    • Randomisierung: Hier werden die Testpersonen rein zufällig ausgewählt, so kann es sein, dass Störfaktoren weniger Einfluss haben, wenn die Testgruppe groß genug ist.
    • Einschluss- und Ausschlusskriterien: Bei dieser Methode bestimmt man, welche Kriterien in der Studie ausgeschlossen werden oder welche Gruppe an Testpersonen betrachtet wird.
    • Matching: Beim Matching vergleicht man nur Werte miteinander, die den gleichen Wert beim Störfaktor aufweisen. Zum Beispiel würde man eine 19-Jährige Frau aus Versuchsgruppe 1 mit einer 19-Jährigen Frau aus Versuchsgruppe 2 vergleichen und somit gleich 2 Störfaktoren (Alter und Geschlecht) ausschalten.

Egal wie man am Ende vorgeht, achten Sie darauf, wo Sie ihre Daten herbekommen und geben Sie immer die Quelle der Daten an.

Als Ersteller eines Diagramms oder auch Dashboards ist es Ihre Aufgabe, die Quelldaten zu verifizieren und auf Richtigkeit zu überprüfen. Hierzu können Sie auch noch andere Quellen heranziehen.

 

Anteil vs. Absolut

Anteile sagen nicht immer die ganze Wahrheit. Damit dem Leser nichts Falsches übermittelt wird, sollte man immer alle Faktoren beachten und diese im Dashboard hervorheben.

Auch hierzu ein weiteres Beispiel: Energieausgaben von verschiedenen Haushalten. (Gering- & Vielverdiener, Durchschnitt)

Im ersten Diagramm sehen wir, dass Vielverdiener nur einen geringen Anteil ihres Nettoeinkommens für Wohnenergie ausgeben und den größten Anteil die Geringverdiener.

Wenn man jedoch die absoluten Zahlen hinzufügt, bekommt man eine andere Sicht auf die Daten. Natürlich werden Geringverdiener trotzdem am meisten belastet, im Verhältnis zu ihrem Nettoeinkommen.

Energieausgaben
Abbildung 7: Energieausgaben pro Haushalt; Bildquelle: https://www.fluter.de/statistiken-tricks

Aus diesem Grund ist es wichtig, dass beim Erstellen von Dashboards oder Diagrammen immer beide Werte betrachtet werden. Sodass man den Anteil auch richtig zuordnen kann.

 

Vergleich von Daten

Es ist gefährlich, Daten zu vergleichen, die eigentlich keinen Sinn machen und diese eventuell auch noch ins Verhältnis zu setzen.
Hierzu ein Beispiel: Der CO2 Ausstoß pro Person in verschiedenen Ländern.

CO2_Ausstoß
Abbildung 9: CO2 Ausstoß pro Person; Bildquelle: https://www.fluter.de/statistiken-tricks

Deutschland hatte 2019 einen CO2-Ausstoß von 644,1 Mio Tonnen. Das sind pro Person 7,8 Tonnen. Das Ganze wurde mit Indien und den USA verglichen. Nun kann man sich überlegen, ob es wirklich die geeignete Vergleichsgrundlage ist. Macht es nicht mehr Sinn, Deutschland mit Frankreich oder einem anderen Nachbarland zu vergleichen? Diese Fragen sollte man sich Bewusst werden, wenn man solche Dashboards baut.

 

Fazit

Man kann schnell gewollt oder ungewollt Daten „manipulieren“. Umso wichtiger ist die Aufgabe der Ersteller eines Dashboards oder Diagramms. Diese sind in der Verantwortung Daten so zu verpacken, dass ein Leser alle notwendigen Informationen erhält ohne, dass welche davon verloren gehen.

Dies ist in unserer heutigen schnelllebigen Zeit leider nicht immer so leicht. Die meisten Menschen wollen keine langen Texte lesen, um Informationen zu erhalten, sondern wollen diese auf einen Blick haben ohne diese auch eventuell hinterfragen zu müssen. Umso wichtiger ist es sich damit auseinander zu setzen, was man mit seinem Dashboard oder Diagramm aussagen will und wie es beim Leser ankommt.

Hier geht’s zum zweiten Teil

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*Pflichtfelder

*