Die hohe Kunst der Datenmanipulation

24.08.2020

Das Teufelchen sagt: „Mhhh…..Schokolade ist was feines und ist viel besser als Sport zu machen“

Das Engelchen hält dagegen: „Nein – das ist nur eine List!“

Hilfe! Wer liegt nun richtig oder falsch? Engelchen oder Teufelchen?

Durch die hohe Kunst der Datenmanipulation ist es gar nicht so einfach, herauszufinden was wirklich wahr oder falsch ist. Und damit ist nicht die direkte Weise gemeint, Daten zu verschönern, sondern die indirekte. Was das genau bedeutet? Wir klären auf.

Direkte Datenmanipulation

Bei einer direkten Datenmanipulation werden Werte von Daten verändert. Aus einem Umsatz von z.B. 5.000 € wird mal eben schnell 50.000 € und aus einem Verlust von 2.222 € werden 222 €. Diese Art von Manipulation ist nicht erlaubt und außerdem gesetzlich verboten. Natürlich kann dies auch aufgrund eines Versehens / eines Zahlendrehers geschehen, wenn bspw. Daten falsch formatiert wurden oder das Trennzeichen vom Bearbeitungstool falsch interpretiert wurde. Damit dies nicht passiert, ist es wichtig, Daten genau zu überprüfen und zu beobachten. Wenn auffällt, dass es in einem Diagramm irgendwo einen Ausreißer gibt, ist dies meist ein Indiz für inkorrekte Daten.

Indirekte Datenmanipulation

Daten müssen aber gar nicht direkt manipuliert sein, um falsche Fakten aufzutischen. Es reicht schon aus, wenn nicht alles gezeigt wird – dies wird häufig als Trick verwendet, die Leser von etwas zu überzeugen, was gar nicht oder nur bedingt stimmt. Wir möchten ein Gefühl dafür vermitteln, Daten bzw. Informationen in Dashboards genauer zu hinterfragen. Die Schweizerin Annabelle Rincon hat zu dieser Thematik ein interessantes Dashboard erstellt, das wir genauer vorstellen möchten. Das Spiel läuft so: Das Teufelchen stellt eine Behauptung auf und das Engelchen wirft einen kritischen Blick darauf. Wer wohl die Wahrheit zeigt?

Behauptung 1

Das Teufelchen behauptet, dass Schokolade essen besser ist als Sport zu machen und versucht diese Aussage mit verschieden Diagrammen zu untermauern. Obwohl das Engelchen anderer Meinung ist, sprechen die Diagramme des Teufelchens eine andere Sprache. Werfen wir dazu einen Blick auf das Diagramm mit der Aussage: Das Wohlbefinden ist um einiges höher, wenn man Schokolade isst, als wenn man Sport macht.

Mehr Wohlbefinden mit Schokolade
Abbildung 1: Mehr Wohlbefinden mit Schokolade? Quelle: https://public.tableau.com/profile/rincon#!/vizhome/IssportreallygoodformeorshouldIeatmorechocolate/Sportkills

Laut Diagramm ist es eindeutig. Das Wohlbefinden beim Essen von Schokolade liegt am Ende der Kurve bei 10, während sie bei Sport bei -1 liegt. Schokolade ist also besser als Sport?

Nicht wirklich – das Teufelchen hat es sich einfach gemacht und zeigt nicht die ganze Wahrheit. Denn wenn der betrachtete Zeitraum erweitert wird, sieht das Engelchen ein völlig anders Bild:

Sport vs. Schokolade
Abbildung 2: Sport vs. Schokolade – Quelle: https://public.tableau.com/profile/rincon#!/vizhome/IssportreallygoodformeorshouldIeatmorechocolate/Sportkills

Wir können jetzt sehen, dass das Wohlbefinden nach einer Stunde beim Sport bei 10 und bei Schokolade essen bei -10 liegt – höchst wahrscheinlich aufgrund des schlechten Gewissens und der Bauchschmerzen durch zu viel Süßkram. In Projekten wird häufig nur ein bestimmter Zeitraum betrachtet, der die Leser wirklich interessiert. Um Fehlinterpretationen zu vermeiden, sollten allerdings die Leser darüber informiert werden.

Behauptung 2

Das Teufelchen sagt, wenn man Sport macht, erhöht sich die Sterbewahrscheinlichkeit um mehr als 500.

Erhöhte Sterbewahrscheinlichkeit bei Sport
Abbildung 3: Erhöhte Sterbewahrscheinlichkeit bei Sport? Quelle: https://public.tableau.com/profile/rincon#!/vizhome/IssportreallygoodformeorshouldIeatmorechocolate/Sportkills

Ist dieses Diagramm ausgewertet, steht eines fest: nie wieder Sport – man ist ja schließlich nicht lebensmüde.

Aber wo ist hier der Fehler? Mit zwei Balken kann das Teufelchen viel behaupten. Genauso gut könnte die Aussage lauten: Die Sterbewahrscheinlichkeit erhöht sich um das 1000-fache. Was hier fehlt, ist die Achsenbeschriftung bzw. eine bessere Formatierung im Allgemeinen. Dann erkennt das Engelchen nämlich eine völlig andere Aussage:

Sterbewahrscheinlichkeit

Die Sterbewahrscheinlichkeit bei Sport liegt im Durchschnitt gerade einmal bei 0,17 %. Da ist es wahrscheinlicher, an den Spätfolgen von Schokolade zu sterben, als an Sport.

Behauptung 3

Das Teufelchen zeigt im nächsten Diagramm wie hoch die Sterbewahrscheinlichkeit bei einzelnen Sportarten liegt.

Sterbewahrscheinlichkeit
Abbildung 4: Sterbewahrscheinlichkeit einzelner Sportarten, Quelle: https://public.tableau.com/profile/rincon#!/vizhome/IssportreallygoodformeorshouldIeatmorechocolate/Sportkills

Sollten wir jetzt besser auf der Couch liegen bleiben? Vielleicht wäre das sinnvoll. Jedoch zeigt das Teufelchen hier zum größten Teil „Minderheitssportarten“ mit hohem Risiko, die von einem geringen Prozentsatz der Bevölkerung ausgeübt werden. Es werden bewusst Hintergrundinformationen zurückgehalten, sodass der Eindruck entsteht, sämtliche Sportarten wären lebensgefährlich.

Fazit: Datenmanipulation ade – Hintergrundinfos bieten und Diagramme hinterfragen

In diesem Dashboard wird eindrucksvoll deutlich, was passiert, wenn einer Grafik kein Kontext mitgeliefert wird. Ganz leicht kann eine andere bzw. falsche Aussage interpretiert oder vermittelt werden. Aus diesem Grund ist es wichtig, dem Leser immer aufzuzeigen was genau zu sehen ist z.B. welcher Zeitraum betrachtet wird. Ebenso ist die Achsenbeschriftung der Diagramme von großer Bedeutung, um die richtige Aussage herauslesen und hinterfragen zu können. Wie Churchill schon sagte: „Trau keiner Statistik, die du nicht selbst gefälscht hast.“


Wir haben uns noch zwei Fragen gestellt:

  • Darf man Informationen zurückhalten, ohne den Leser davon zu berichten und wenn ja, wann?
  • Wie viel Informationen sind notwendig und wann ist es zu viel?

Was ist Ihre Meinung – teilen Sie sie gerne mit der Kommentarfunktion.

 

Noch nicht genug vom Thema?

Dieses Buch ist in diesem Kontext empfehlenswert: How to Lie with Statistics von Darrell Huff

Einen weiteren Blogbeitrag zum Thema lesen: Storytelling with Data

Datenvisualisierung: schnell Zusammenhänge erkennen und Daten interaktiv nutzbar machen

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*Pflichtfelder

*