Das Streudiagramm – der Klassiker neu interpretiert

15.06.2020

Wer kennt es nicht, das Streudiagramm (engl. Scatter Plot) oder auch gerne Punktewolke genannt. Es ist eines der einfachsten und informativsten Diagramme die es gibt. Es dient dazu etwaige Zusammenhänge bzw. Korrelationen zu erkennen.

Das Streudiagramm wird in den unterschiedlichsten Bereichen verwendet, sei es um zum Beispiel Daten aus der Automobilbranche oder aus der Medizinbranche auszuwerten.

Als kleines Beispiel: Das folgende Diagramm zeigt den Zusammenhang bzw. eine hohe Korrelation beider Kennzahlen (tägliche Milchproduktion und Anzahl der Milchkühe). Je mehr Kühe es gibt, umso höher ist die Milchproduktion. Es genügen zwei Kennzahlen und eine einfache Visualisierung, um die wichtigsten Informationen zu erhalten.

Die bekanntesten Streudiagramme

: Beispiel eines einfachen Streudiagrammes
Abbildung 1: Beispiel eines einfachen Streudiagrammes – eigene Darstellung

 

Weiteres Beispiel eines Streudiagrammes in einfacher Form
Abbildung 2: Weiteres Beispiel eines Streudiagrammes in einfacher Form – eigene Darstellung

In diesem Diagramm werden Hybrid- und rein elektrische Fahrzeuge anhand ihres mittleren Verbrauches (X-Achse) und ihrer elektrisch zurückgelegten Strecke (Y-Achse) verglichen. Jeder Punkt stellt ein Fahrzeug dar. Zu sehen ist unteranderem, dass nur wenige Fahrzeuge die gesamte Strecke im elektrischen Fahrmodus zurücklegen, was in diesem Fall 100% „eDrive share“ wären. Der größte Teil der Fahrzeuge fährt mit dem Verbrenner, zu sehen im unteren Teil der Punktewolke.

Zur Anreicherung der Grafik um eine weitere Information eignet sich unter anderem die Farbe der Datenpunkte. Im folgenden Beispiel definiert die Farbe die Herkunft des Fahrzeuges:

Erweiterte Form eines einfachen Streudiagrammes
Abbildung 3: Erweiterte Form eines einfachen Streudiagrammes – eigene Darstellung

Diese beiden Formen werden am häufigsten verwendet. Jedoch gibt es noch viele weitere Möglichkeiten Streudiagramme in Szene zu setzen. Wir von doubleSlash waren neugierig und haben einige dieser verschiedenen Möglichkeiten recherchiert und mit Beispieldaten von Tableau nachgebaut. In diesem Bereich Datenvisualisierung haben wir schon viel ausprobiert und Erfahrungen in Projekten gesammelt. Mehr Informationen finden Sie hier: https://www.doubleslash.de/leistungen/datenvisualisierung/

Das Streudiagramm nicht neu erfunden, aber mit Vorsicht zu genießen

Eine weitere Möglichkeit ist, eine Information über die Größe der einzelnen Punkte mit einzubringen. Diese Form ist unter Nutzern bekannt und wird auch vereinzelt verwendet. Jedoch müssen Sie hier vorsichtig vorgehen. Es muss darauf geachtet werden, dass die Variable auf die Kreisfläche des Punktes angewendet wird und nicht auf den Radius, da dieser im Quadrat in die Kreisfläche eingeht und somit die Größenverhältnisse der Punkte verfälscht.

In dem folgenden Beispiel werden die Informationen zu Umsatz (X-Achse), Gewinn (Y-Achse), Gewinnmarge (Farbe) und verkaufter Menge (Größe) in einem Diagramm dargestellt:

Streudiagramm, Vergleich von vier Kennzahlen mit Hilfe von Farbe und Größe
Abbildung 4: Streudiagramm, Vergleich von vier Kennzahlen mit Hilfe von Farbe und Größe – eigene Darstellung

Betrachtet werden alle Hersteller der Kategorie Technik und der Unterkategorie Telefone. Nokia ist mit einem Umsatz von über 22.000 € und einem Gewinn von über 8.000 € einsamer Spitzenreiter. Von dieser Marke wurden nur 39 Telefone verkauft, während von Cisco 48 Telefone verkauft wurden. Jedoch liegt der Umsatz von Cisco nur etwas über 6.000 € und der Gewinn bei -901 €, sodass dieser in der unteren linken Hälfte des Diagrammes zu finden ist.

Über die Farben lässt sich streiten, aber oft bewirkt man mit kontrastreichen Farben mehr als mit schlichten Farben. So lassen sich vor allem farbliche Unterschiede am besten hervorheben und erkennen.

Ein weiterer Punkt der zu beachten ist – aber für jedes Diagramm gilt – ist die Informationsmenge. Es ist von großer Bedeutung zu bestimmen, wie viele Informationen in einem Diagramm dargestellt werden sollen. Bei zu großer Informationsdichte kann dies, je nach Daten, schnell zu Verwirrung führen. Bedenkt man dies, hat die Menge der Informationen sowohl seine Nach- als auch seine Vorteile. Haben die Daten auch eine Beziehung zueinander, können dann „so viele“ Informationen wie Sie möchte in einem Diagramm zusammengefasst werden. Jedoch wird empfohlen sparsam heranzugehen und von Fall zu Fall abzuwägen.

Auf die Berücksichtigung aller Zusammenhänge kommt es an

Innerhalb unserer Recherche sind wir auf einen weiteren Anwendungsfall gestoßen: Daten eines bestimmten Zeitraumes, z.B. das aktuelle Jahr, mit der Gesamtheit aller Daten zu vergleichen. Nun besteht die Möglichkeit mehrere Diagramme zu erstellen und diese in einem Dashboard anzuordnen, oder es wird fast alles in einem Diagramm zusammengefasst. Dies erfordert jedoch eine Erweiterung der Daten: diese müssen verdoppelt werden, was wiederum je nach bereits bestehender Datenmenge, zu einer hohen Steigerung der Datenmenge führen kann. Daher wird empfohlen, dieses Diagramm nur auf kleinere Datenmengen oder auf bereits aggregierte Daten anzuwenden. Im folgenden Beispiel würde sich eine Aggregation auf das Jahr je Hersteller empfehlen.

Streudiagramm, Vergleich von einzelnen Jahren und dem gesamten Zeitraum
Abbildung 5: Streudiagramm, Vergleich von einzelnen Jahren und dem gesamten Zeitraum – eigene Darstellung

Jeder kleine Punkt zeigt den Umsatz und die Gewinnmarge pro Jahr je Hersteller. Die großen Punkte zeigen wiederum den Umsatz und die Gewinnmarge des gesamten Zeitraums. Zusätzlich wurde die Information der Kategorie als Farbe mit hinzugefügt. Wählt man nun einen Punkt aus, werden alle vorhandenen Punkte des Herstellers angezeigt, sowohl gesamt als auch jährlich.

Ergebnis nach Punktauswahl - eigene Darstellung
Abbildung 6: Ergebnis nach Punktauswahl – eigene Darstellung

Informationen und Daten Im Fadenkreuz

Wortwörtlich stehen bei diesem Diagramm die Informationen im Fadenkreuz. Was dieses aber auch so besonders macht. Im Fadenkreuz selber sehen Sie den betrachteten Hersteller und die verkaufte Menge. Der Gewinn und Umsatz wird direkt an der Achse bzw. am Ende des Fadenkreuzes angezeigt. Zusätzlich ist die Information zu sehen, welchen Rang der Hersteller jeweils beim Gewinn und Umsatz einnimmt.

Streudiagramm mit Fadenkreuz
Abbildung 7: Streudiagramm mit Fadenkreuz – eigene Darstellung

Der Vorteil an diesem Diagramm zu vorherigem ist, dass keine Daten „manipuliert“ werden müssen. Das einzige was sehr zeitaufwändig ist, ist das Berechnen der noch notwendigen Kennzahlen und das zusammenfügen der einzelnen Diagramme.

Hohe Kunst der Manipulation

Es geht aber auch noch spektakulärer. Mit Manipulation ist nicht gemeint, dass man seine Daten manipuliert und somit vielleicht verschönert. Sondern es geht darum die Daten mit weiteren notwendigen Daten anzureichern. Was aber nicht immer ganz einfach ist. Hierzu müssen die Daten, die Sie auswerten möchten, auch passen. Zum Beispiel kann das folgende Streudiagramm nicht mit Daten wie Umsatz und Gewinnmarge umgesetzt werden, auch wenn man hier Prozentwerte hat.

Das erste Diagramm zeigt ein Streudiagramm mit Referenzbändern. Jedoch nicht klassisch wie man sie in Tableau einfach einfügen kann, sondern angepasst an die Daten. Bei diesem Diagramm wurde versucht darzustellen, …

Streudiagramm mit Referenzbändern
Abbildung 8: Streudiagramm mit Referenzbändern

In dem Diagramm werden sowohl aktive als auch ehemalige Fußballspieler der Amerikanischen Fußballliga MLS und deren Trefferquote dargestellt. Wobei nur Treffer betrachtet werden die keine Strafstöße sind.

Des Weiteren wird mit mehreren Diagrammen und mehreren Datenquellen gearbeitet. Das Ergebnis kann sich zwar sehen lassen, aber dafür müssen auch die Daten stimmen.

Das zweite Diagramm ist eine Klasse für sich. Eigentlich benötigt man hier nur die Anzahl der Datensätze und die Daten zur Berechnung von Hexagonen, aber auch dies erfordert eine hohe Menge an Daten (157.908 Datensätze).

Streudiagramm mit Hexagonen
Abbildung 9: Streudiagramm mit Hexagonen

Hierbei handelt es sich um ein Streudiagramm, das Punkte in Sechsecken (Hexagon) gruppiert, um bestimmte Hotspots anzuzeigen. In gewisser Weise ähnelt es der Verwendung der Dichte, bietet jedoch ein etwas anderes Erscheinungsbild. Es lässt sich die sowohl die Behältergrößen als auch der Zwischenraum anpassen. Als Beispiel wurden hier die Menge der Datensätze betrachtet.

Fazit

Wie man sieht, muss ein Streudiagramm nicht immer nur aus zwei Achsen und mehreren Punkten bestehen – es gibt vielfältige Möglichkeiten. Zum Beispiel kann man die Punkte mit weiteren Informationen anreichern, wie durch die Größe der Punkte oder dessen Farbe. Die Informationen müssen aber auch nicht in den Punkten selbst enthalten sein, sondern können durch weitere Diagramme oder Analytics-Tools angereichert werden. Man kann sich aber auch komplett vom klassischen Bild des Streudiagramms lösen und es in einer anderen Art und Weise darstellen, wie zum Beispiel durch Hexagons.

Manchmal ist weniger mehr, aber manchmal ist es das Ziel, die Daten mit Absicht anders und interessanter vorzustellen. Je nachdem was der Nutzer von den Daten erwartet, muss abgewogen werden, wie die Daten dargestellt werden sollen und wie viele Datensätze im Diagramm sinnvoll sind.

 

Möchten Sie schnell Zusammenhänge erkennen und Daten interaktiv nutzbar machen?

Dann finden Sie hier mehr Infos zu unserem Leistungsangebot der Datenvisualisierung

 

Diese Beiträge könnten Sie auch interessieren:

Die Top 3 Business Intelligence Tools – eine Kurzgeschichte

Challenge accepted! Endlich eine Hex Tile Map, die aussieht wie Europa

Automatisierte Qualitätssicherung im Kontext von Data Analytics


Quellen:

Abbildung 1: https://welt-der-bwl.de/Streudiagramm

Abbildung 8: https://public.tableau.com/profile/fennsk#!/vizhome/All-TimeMLSPlayers/ScoringShotsvsGoals

Abbildung 9: https://public.tableau.com/profile/ken.flerlage#!/vizhome/HexbinScatterplot/HexScatterplot

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*Pflichtfelder

*