Einbinden einer CSV-Datei in Microsoft Office 2019

 

Als Beispiel für das Einbinden einer CSV-Datei in Microsoft Office 2013 und 2019 wird folgende Tabelle verwendet:

NutzernameIdentifikations-NrVornameNachnameBonus
king8538493MaxMustermann4000.00
grey0727384ElseMayer3800.50
smith8819365FerdinandMüller220.80
elfe1850684IngeHuber1849.00
fryzil0044849PeterWillis3000.00
bond00769878HansEbner990.99
booker5528943ElkeMusterfrau2010.00

Office 2013

In Office 2013 gab es eigentlich nur drei Schritte.

  1. Auswahl ob Getrennt oder Feste Breite
  2. Trennzeichen festlegen und eventuell einen Textqualifizierer festlegen.
  3. Und abschließend das Dezimaltrennzeichen festlegen.

Leider funktioniert dies nicht mehr ganz so einfach. Zumindest wenn man die Funktion zum ersten Mal verwendet. Es wurde das Add-In „Power Query“ in Excel integriert, sodass man eine komplett neue Oberfläche hat und sich erstmal neu einfinden muss.

Office 2019

Am Einstieg über den Reiter Daten und dem Unterpunkt „Aus Text/CSV“ hat sich nichts geändert, jedoch an den weiteren Schritten, die leider nicht mehr so intuitiv sind wie bei der 2013er Version.

Nach dem Öffnen der Datei wird einem eine erste formatierte Version vorgeschlagen. Was jedoch in unserem Beispiel fatal wäre, da die Mitarbeiter nicht den korrekten Bonus bekommen würden. Excel konvertiert die Textspalte in eine Dezimalspalte, was im Grunde genommen nicht falsch wäre, wenn es nicht einfach die Dezimaltrennzeichen löschen würde.

Um dies zu korrigieren muss man zunächst auf Bearbeiten klicken und anschließend die bereits vorgenommene Änderung in den Abfrageeinstellungen wieder entfernen. Dadurch wird die Spalte wieder in eine Textspalte konvertiert.

Nun muss man Excel noch beibringen das Dezimaltrennzeichen durch ein Komma ersetzt werden soll. Zunächst werden die Spalten markiert die bearbeitet werden sollen. Als nächstes klickt man im Reiter auf „Transformieren“ und unter der Rubrik „Textspalte“ auf „Analysieren“ und „JSON“.

Nun werden die Daten korrekt angezeigt und können so übernommen werden. Hierzu einfach unter dem Reiter „Start“ auf „Schließen & Laden“ klicken.

Fazit

Wenn man noch nie mit Power Query gearbeitet hat, fällt es einem sehr schwer diese Funktion zu finden. Die Oberfläche schaut zwar toll und modern aus wie die alte, aber Benutzerfreundlich ist leider etwas anderes.

Das Streudiagramm – der Klassiker neu interpretiert

Das Streudiagramm wird in den unterschiedlichsten Bereichen verwendet, sei es um zum Beispiel Daten aus der Automobilbranche oder aus der Medizinbranche auszuwerten.

Als kleines Beispiel: Das folgende Diagramm zeigt den Zusammenhang bzw. eine hohe Korrelation beider Kennzahlen (tägliche Milchproduktion und Anzahl der Milchkühe). Je mehr Kühe es gibt, umso höher ist die Milchproduktion. Es genügen zwei Kennzahlen und eine einfache Visualisierung, um die wichtigsten Informationen zu erhalten.

Die bekanntesten Streudiagramme

: Beispiel eines einfachen Streudiagrammes
Abbildung 1: Beispiel eines einfachen Streudiagrammes – eigene Darstellung

 

Weiteres Beispiel eines Streudiagrammes in einfacher Form
Abbildung 2: Weiteres Beispiel eines Streudiagrammes in einfacher Form – eigene Darstellung

In diesem Diagramm werden Hybrid- und rein elektrische Fahrzeuge anhand ihres mittleren Verbrauches (X-Achse) und ihrer elektrisch zurückgelegten Strecke (Y-Achse) verglichen. Jeder Punkt stellt ein Fahrzeug dar. Zu sehen ist unteranderem, dass nur wenige Fahrzeuge die gesamte Strecke im elektrischen Fahrmodus zurücklegen, was in diesem Fall 100% „eDrive share“ wären. Der größte Teil der Fahrzeuge fährt mit dem Verbrenner, zu sehen im unteren Teil der Punktewolke.

Zur Anreicherung der Grafik um eine weitere Information eignet sich unter anderem die Farbe der Datenpunkte. Im folgenden Beispiel definiert die Farbe die Herkunft des Fahrzeuges:

Erweiterte Form eines einfachen Streudiagrammes
Abbildung 3: Erweiterte Form eines einfachen Streudiagrammes – eigene Darstellung

Diese beiden Formen werden am häufigsten verwendet. Jedoch gibt es noch viele weitere Möglichkeiten Streudiagramme in Szene zu setzen. Wir von doubleSlash waren neugierig und haben einige dieser verschiedenen Möglichkeiten recherchiert und mit Beispieldaten von Tableau nachgebaut. In diesem Bereich Datenvisualisierung haben wir schon viel ausprobiert und Erfahrungen in Projekten gesammelt. Mehr Informationen finden Sie hier: https://www.doubleslash.de/leistungen/datenvisualisierung/

Das Streudiagramm nicht neu erfunden, aber mit Vorsicht zu genießen

Eine weitere Möglichkeit ist, eine Information über die Größe der einzelnen Punkte mit einzubringen. Diese Form ist unter Nutzern bekannt und wird auch vereinzelt verwendet. Jedoch müssen Sie hier vorsichtig vorgehen. Es muss darauf geachtet werden, dass die Variable auf die Kreisfläche des Punktes angewendet wird und nicht auf den Radius, da dieser im Quadrat in die Kreisfläche eingeht und somit die Größenverhältnisse der Punkte verfälscht.

In dem folgenden Beispiel werden die Informationen zu Umsatz (X-Achse), Gewinn (Y-Achse), Gewinnmarge (Farbe) und verkaufter Menge (Größe) in einem Diagramm dargestellt:

Streudiagramm, Vergleich von vier Kennzahlen mit Hilfe von Farbe und Größe
Abbildung 4: Streudiagramm, Vergleich von vier Kennzahlen mit Hilfe von Farbe und Größe – eigene Darstellung

Betrachtet werden alle Hersteller der Kategorie Technik und der Unterkategorie Telefone. Nokia ist mit einem Umsatz von über 22.000 € und einem Gewinn von über 8.000 € einsamer Spitzenreiter. Von dieser Marke wurden nur 39 Telefone verkauft, während von Cisco 48 Telefone verkauft wurden. Jedoch liegt der Umsatz von Cisco nur etwas über 6.000 € und der Gewinn bei -901 €, sodass dieser in der unteren linken Hälfte des Diagrammes zu finden ist.

Über die Farben lässt sich streiten, aber oft bewirkt man mit kontrastreichen Farben mehr als mit schlichten Farben. So lassen sich vor allem farbliche Unterschiede am besten hervorheben und erkennen.

Ein weiterer Punkt der zu beachten ist – aber für jedes Diagramm gilt – ist die Informationsmenge. Es ist von großer Bedeutung zu bestimmen, wie viele Informationen in einem Diagramm dargestellt werden sollen. Bei zu großer Informationsdichte kann dies, je nach Daten, schnell zu Verwirrung führen. Bedenkt man dies, hat die Menge der Informationen sowohl seine Nach- als auch seine Vorteile. Haben die Daten auch eine Beziehung zueinander, können dann „so viele“ Informationen wie Sie möchte in einem Diagramm zusammengefasst werden. Jedoch wird empfohlen sparsam heranzugehen und von Fall zu Fall abzuwägen.

Auf die Berücksichtigung aller Zusammenhänge kommt es an

Innerhalb unserer Recherche sind wir auf einen weiteren Anwendungsfall gestoßen: Daten eines bestimmten Zeitraumes, z.B. das aktuelle Jahr, mit der Gesamtheit aller Daten zu vergleichen. Nun besteht die Möglichkeit mehrere Diagramme zu erstellen und diese in einem Dashboard anzuordnen, oder es wird fast alles in einem Diagramm zusammengefasst. Dies erfordert jedoch eine Erweiterung der Daten: diese müssen verdoppelt werden, was wiederum je nach bereits bestehender Datenmenge, zu einer hohen Steigerung der Datenmenge führen kann. Daher wird empfohlen, dieses Diagramm nur auf kleinere Datenmengen oder auf bereits aggregierte Daten anzuwenden. Im folgenden Beispiel würde sich eine Aggregation auf das Jahr je Hersteller empfehlen.

Streudiagramm, Vergleich von einzelnen Jahren und dem gesamten Zeitraum
Abbildung 5: Streudiagramm, Vergleich von einzelnen Jahren und dem gesamten Zeitraum – eigene Darstellung

Jeder kleine Punkt zeigt den Umsatz und die Gewinnmarge pro Jahr je Hersteller. Die großen Punkte zeigen wiederum den Umsatz und die Gewinnmarge des gesamten Zeitraums. Zusätzlich wurde die Information der Kategorie als Farbe mit hinzugefügt. Wählt man nun einen Punkt aus, werden alle vorhandenen Punkte des Herstellers angezeigt, sowohl gesamt als auch jährlich.

Ergebnis nach Punktauswahl - eigene Darstellung
Abbildung 6: Ergebnis nach Punktauswahl – eigene Darstellung

Informationen und Daten Im Fadenkreuz

Wortwörtlich stehen bei diesem Diagramm die Informationen im Fadenkreuz. Was dieses aber auch so besonders macht. Im Fadenkreuz selber sehen Sie den betrachteten Hersteller und die verkaufte Menge. Der Gewinn und Umsatz wird direkt an der Achse bzw. am Ende des Fadenkreuzes angezeigt. Zusätzlich ist die Information zu sehen, welchen Rang der Hersteller jeweils beim Gewinn und Umsatz einnimmt.

Streudiagramm mit Fadenkreuz
Abbildung 7: Streudiagramm mit Fadenkreuz – eigene Darstellung

Der Vorteil an diesem Diagramm zu vorherigem ist, dass keine Daten „manipuliert“ werden müssen. Das einzige was sehr zeitaufwändig ist, ist das Berechnen der noch notwendigen Kennzahlen und das zusammenfügen der einzelnen Diagramme.

Hohe Kunst der Manipulation

Es geht aber auch noch spektakulärer. Mit Manipulation ist nicht gemeint, dass man seine Daten manipuliert und somit vielleicht verschönert. Sondern es geht darum die Daten mit weiteren notwendigen Daten anzureichern. Was aber nicht immer ganz einfach ist. Hierzu müssen die Daten, die Sie auswerten möchten, auch passen. Zum Beispiel kann das folgende Streudiagramm nicht mit Daten wie Umsatz und Gewinnmarge umgesetzt werden, auch wenn man hier Prozentwerte hat.

Das erste Diagramm zeigt ein Streudiagramm mit Referenzbändern. Jedoch nicht klassisch wie man sie in Tableau einfach einfügen kann, sondern angepasst an die Daten. Bei diesem Diagramm wurde versucht darzustellen, …

Streudiagramm mit Referenzbändern
Abbildung 8: Streudiagramm mit Referenzbändern

In dem Diagramm werden sowohl aktive als auch ehemalige Fußballspieler der Amerikanischen Fußballliga MLS und deren Trefferquote dargestellt. Wobei nur Treffer betrachtet werden die keine Strafstöße sind.

Des Weiteren wird mit mehreren Diagrammen und mehreren Datenquellen gearbeitet. Das Ergebnis kann sich zwar sehen lassen, aber dafür müssen auch die Daten stimmen.

Das zweite Diagramm ist eine Klasse für sich. Eigentlich benötigt man hier nur die Anzahl der Datensätze und die Daten zur Berechnung von Hexagonen, aber auch dies erfordert eine hohe Menge an Daten (157.908 Datensätze).

Streudiagramm mit Hexagonen
Abbildung 9: Streudiagramm mit Hexagonen

Hierbei handelt es sich um ein Streudiagramm, das Punkte in Sechsecken (Hexagon) gruppiert, um bestimmte Hotspots anzuzeigen. In gewisser Weise ähnelt es der Verwendung der Dichte, bietet jedoch ein etwas anderes Erscheinungsbild. Es lässt sich die sowohl die Behältergrößen als auch der Zwischenraum anpassen. Als Beispiel wurden hier die Menge der Datensätze betrachtet.

Fazit

Wie man sieht, muss ein Streudiagramm nicht immer nur aus zwei Achsen und mehreren Punkten bestehen – es gibt vielfältige Möglichkeiten. Zum Beispiel kann man die Punkte mit weiteren Informationen anreichern, wie durch die Größe der Punkte oder dessen Farbe. Die Informationen müssen aber auch nicht in den Punkten selbst enthalten sein, sondern können durch weitere Diagramme oder Analytics-Tools angereichert werden. Man kann sich aber auch komplett vom klassischen Bild des Streudiagramms lösen und es in einer anderen Art und Weise darstellen, wie zum Beispiel durch Hexagons.

Manchmal ist weniger mehr, aber manchmal ist es das Ziel, die Daten mit Absicht anders und interessanter vorzustellen. Je nachdem was der Nutzer von den Daten erwartet, muss abgewogen werden, wie die Daten dargestellt werden sollen und wie viele Datensätze im Diagramm sinnvoll sind.

 

Möchten Sie schnell Zusammenhänge erkennen und Daten interaktiv nutzbar machen?

Dann finden Sie hier mehr Infos zu unserem Leistungsangebot der Datenvisualisierung

 

Diese Beiträge könnten Sie auch interessieren:

Die Top 3 Business Intelligence Tools – eine Kurzgeschichte

Challenge accepted! Endlich eine Hex Tile Map, die aussieht wie Europa

Automatisierte Qualitätssicherung im Kontext von Data Analytics


Quellen:

Abbildung 1: https://welt-der-bwl.de/Streudiagramm

Abbildung 8: https://public.tableau.com/profile/fennsk#!/vizhome/All-TimeMLSPlayers/ScoringShotsvsGoals

Abbildung 9: https://public.tableau.com/profile/ken.flerlage#!/vizhome/HexbinScatterplot/HexScatterplot

Best Practices: Welches ist das richtige Werkzeug für die Datenaufbereitung mit Tableau

Im Bereich Datenaufbereitung gibt es eine ständige Herausforderung: Wie werden die Daten am besten für Tableau aufbereitet? Und sind hierfür Tools wie Knime oder Tableau Prep oder gleich eine eigene Programmierung sinnvoller? Mit Glück haben die Unternehmen sich für einen Toolweg entschieden und der IT-Dienstleister kann diesem folgen. Wie aber vorgehen, wenn es keinerlei Vorgaben gibt? Anhand von folgenden fünf Fällen haben wir uns drei „Werkzeuge“ genauer angeschaut und beleuchten die Vor- und Nachteile der einzelnen Lösungen:

  1. Sehr große Datensätze (Dateien mit mind. 3 Mio. Datensätzen werden getestet)
  2. Komplexe Logik (werden bestimmte Logiken z.B. Loops unterstützt)
  3. Fehleranalyse (wie und wann werden Fehler vom Tool angezeigt)
  4. Verbindung zu verschiedenen Datenquellen (welche Verbindungen zu unterschiedlichen Datenquellen sind möglich)
  5. Automatisierung (Aktualisierung)

Unser Supporter für diesen Zweck ist ein HP Elitebook (RAM 16GB; Intel® Core™ i5-8250U CPU 1.60 GHz).

In der Übersicht: Wann ist welches Werkzeug sinnvoll

Für eine übersichtliche Empfehlung, in welchem Fall die getesteten Werkzeuge sinnvoll sind, haben wir in drei Kategorien eingeteilt (grün=für diesen Fall empfehlenswert, gelb=für diesen Fall mit Einschränkungen empfehlenswert, rot=für diesen Fall nicht empfehlenswert).

Übersicht und Einordnung Werkzeuge zur Datenaufbereitung mit Tableau
Abbildung 1: Übersicht Einordnung Werkzeuge Datenaufbereitung mit Tableau nach Kategorie, Eigene Darstellung

Tableau Prep – Nix für komplexe Logik

Fall 1: Sehr große Datensätze
Bei sehr großen Datensätzen kann es zu Einschränkungen der PC-Performance (CPU und Arbeitsspeicher) und von Tableau Prep kommen – bis hin zum kompletten PC-Absturz. Dabei geht der Arbeitsstand verloren und es muss von vorne begonnen werden.
Unser Testergebnis: nicht empfehlenswert.

Fall 2: Komplexe Logik
Es lässt sich keinerlei komplexe Logik abbilden.
Unser Testergebnis: nicht empfehlenswert.

Fall 3: Fehleranalyse
Fehler werden zwar sofort entweder im Bearbeitungsfenster oder im Bereich Benachrichtigungen angezeigt, jedoch können diese sehr kryptisch und knapp ausfallen.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 4: Verbindungen zu verschiedenen Datenquellen
Dateien können von MS Access, CSV, PDF, XLS, Statistikdaten oder Tableau-Extrakte importiert werden. Es werden nicht so viele Verbindungen wie bei Tableau Desktop geboten.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 5: Automatisierung
Wäre der Tableau Prep Conductor nicht lizenziert, wäre im Test eine automatisierte Ausführung auf Tableau Server mit Tableau Prep Conductor möglich. Eine lokale Automatisierung ist lokal durchführbar (Batch, JSON), der PC muss aber durchgehend angeschaltet sein.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Knime: komplexe Logik und große Datensätze

Fall 1: Sehr große Datensätze
Im Bereich großer Datensätze muss bei Knime am Ende geprüft werden, ob alle Berechnungen und Änderungen funktionieren. Das Ergebnis: es führt zu Performance-Einschränkungen, jedoch nicht zum Absturz. Wie bei Tableau Prep gibt es den Bonus, dass die Daten in der Stichprobe auf eine bestimmte Anzahl eingeschränkt sind (bis zu 1 Mio. frei wählbar). Ein weiterer Vorteil ist, dass bei Knime die Daten erst durchlaufen werden, wenn es vom User angestoßen wird.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 2: Komplexe Logik
Mit über 2.000 Knotenpunkten und der Möglichkeit, eine komplexe Logik abzubilden ist Knime für diesen Fall empfehlenswert. Und gibt es mal keinen Node, um eine Logik abzubilden, kann sie in einem Node mit Java oder Python abgebildet und ausgeführt werden. Das Große Online-Register für Knoten sowie die hilfreiche Online-Community wiegen auch den Nachteil aus, dass Know-how aufgrund der vielen Funktionen dringend notwendig ist.
Unser Testergebnis: empfehlenswert.

Fall 3: Fehleranalyse
Warnungen und Fehler werden in Form von Symbolen oder Ampelfarben sofort im Knoten angezeigt, wobei eine Überprüfung von Knoten zu Knoten möglich ist. Meldungen können außerdem auch auf einer Konsole angezeigt werden. Einziges Manko: Fehlermeldungen sind teilweise nicht leicht nachvollziehbar, da das Error-Handling eines Knoten dem Creator unterliegt.
Unser Testergebnis: empfehlenswert.

Fall 4: Verbindungen zu verschiedenen Datenquellen
Es können Verbindungen zu einer großen Bandbreite an Datenquellen hergestellt werden – Textformate (CSV, PDF, XLS etc.), Unstrukturierte Datentypen (Bilder, Dokumente, Netzwerke etc.) oder Datenbanken und Data Warehouse Lösungen (Oracle, ApacheHive, Azure etc,), Twitter und Google usw.
Unser Testergebnis: empfehlenswert.

Fall 5: Automatisierung
Die Vorteile im Falle der Automatisierung heben sich bei Knime meist wieder auf. So ist zwar eine automatische Ausführung auf dem Knime-Server möglich, der ist aber wiederum lizenziert. Ebenfalls ist auf der einen Seite ein automatisierter Durchlauf (z.B. Batch) realisierbar, auf der anderen Seite jedoch keiner für Workflowketten umsetzbar.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Python: Mit Geduld zu maximaler Flexibilität und Aufbereitung großer Datensätze

Fall 1: Sehr große Datensätze
Im Falle sehr großer Datensätze ist es möglich, den gesamten Code zu schreiben, ohne die Daten anzufassen und es gibt kaum Performance-Einschränkungen. Ein Aber gibt es: die Fehleranalyse nimmt viel Zeit in Anspruch.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 2: Komplexe Logik
Python ist im Kontext der komplexen Logik sehr frei in der Entwicklung. Funktionen wie z.B. FOR– oder While Schleifen stehen zur Verfügung. Um die komplexen Logiken umfänglich nutzen zu können, ist Know-how in der Sprache daher zwingend notwendig.
Unser Testergebnis: empfehlenswert.

Fall 3: Fehleranalyse
Durch einen Debugger ist eine direkte Dateneinsicht und bessere Fehlerverständlichkeit gegeben – und die Verwendung von Python Console ist auch während dem debuggen möglich. Jedoch werden Fehler bei Python erst angezeigt, wenn sie auftreten. Bei einem sehr großen Datensatz kann das schon mal eine halbe Stunde dauern.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 4: Verbindungen zu verschiedenen Datenquellen
Eine Verbindung zu Dateiformaten (z.B. CSV, XLS, TSV, Datei etc.) ist möglich. Datenbanken und Data Warehouse Lösungen sind teilweise direkt integriert.
Unser Testergebnis: empfehlenswert.

Fall 5: Automatisierung
Eine Automatisierte Ausführung ist direkt auf den Servern möglich und eine lokale Automatisierung (z.B. Batch) wird ebenfalls geboten. Datenbanken und Data Warehouse Lösungen müssen jedoch Python Skripte unterstützen und der PC muss angeschaltet sein.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fazit

Alle drei „Werkzeuge“ bzw. Lösungen bieten die Möglichkeit Daten auf verschiedene Art und Weise aufzubereiten. Nachdem wir die Lösungen in fünf Fällen untersucht haben, wird schnell ein Muster deutlich. Tableau Prep ist für eine schnelle und einfache Datenaufbereitung von kleineren Datensätzen sinnvoll. Da der Workflow auf den Tableau Server eingebunden werden kann, ist der Zugriff und die Bearbeitung des Workflows von überall möglich. Sollen komplexe Logiken und größere Datensätze aufbereitet werden, empfiehlt sich Knime oder Python.

 

Mehr über unsere Data Driven Services erfahren

 

Diese Blogbeiträge könnten dich auch interessieren:

Automatisierte Qualitätssicherung im Kontext von Data Analytics

Die Top 3 Business Intelligence Tools – eine Kurzgeschichte

Automatisierte Qualitätssicherung im Kontext von Data Analytics

Produkte wie Tableau, Qlik oder auch Power BI von Microsoft kommen bei der Datenanalyse und Datenvisualisierung häufig zum Einsatz. Ein sehr wichtiges Thema hierbei ist die Qualitätssicherung. Denn es gibt kaum Schlimmeres, als wenn die aufgezeigten Daten nicht der Wirklichkeit entsprechen. Die automatisierte Qualitätssicherung in IT-Projekten ist bereits weit verbreitet, bei Visualisierungsprojekten bzw. Data Analytics Projekten ist dies aber bei weitem noch nicht der Fall. Das Ergebnis: nach jeder Änderung wird manuell geprüft, ob noch alle Daten korrekt sind, bzw. ob die Verständlichkeit der Dashboards noch gegeben ist. Um diesen aufwändigen Prozess zu automatisieren, gibt es unterschiedliche Tools mit den verschiedensten Funktionen. Einige dieser Tools sind jedoch lediglich auf ein Produkt anwendbar – nur wenige Anbieter decken Tableau, Qlik als auch Power BI ab. Doch welche Funktionen genau haben die unterschiedlichen Tools? Wir haben vier der verfügbaren Tools genauer unter die Lupe genommen.

Vier Data Analytics Tools mit unterschiedlichen Test-Funktionen

Im Test haben wir diesen vier Tools BI Validator, Power Tools, Kinesis und QuerySurge auf den Zahn gefühlt. Unterscheiden sich die Tools bei vielen Funktionen deutlich, haben sie eines gemeinsam: mit allen kann die Performance von Reports getestet werden. Werfen wir aber doch einen genaueren Blick darauf.

Hier Teil 1 der Data Analytics Reihe lesen: Ist eine Abgrenzung des Begriffs noch möglich?

BI Validator

BI-Validator: Automatische Testläufe
Abbildung 1: Eigener Screenshot aus dem BI-Validator – Automatische Testläufe

Der BI Validator beispielsweise bietet unterschiedliche Tests:

  • Regressionstest von Arbeitsmappen: Vergleich von Arbeitsmappen für die Identifikation von Daten- und Layoutunterschieden
  • Regressionstest von Ansichten: Vergleich von verschiedenen Ansichten zur Erkennung von visuellen als auch Datenunterschiede
  • Stresstest: Erfassung von Leistungsstatistiken durch eine Simulierung der Benutzerlast
  • Upgrade Test: Vergleich von Arbeitsmappen vor und nach dem Upgrade
  • Performance Test: Überwachung der Dashboards, Erstellung von Leistungsberichten der Produktionsumgebung
  • Funktionsprüfung: ermöglicht das Zuordnen und Vergleichen von Reportdaten zu Datenquellen, um Ansichten zu überprüfen
  • Migrationstest: Vergleich der Daten eines Reports, die von Tableau generiert wurden
  • Sicherheitstest: Vergleich der Zugriffsebenen der einzelnen Benutzer bzw. Gruppen
  • Unternehmenszusammenarbeit: Ergebnisse können gemeinsam genutzt oder per E-Mail versendet werden, da Testpläne im Unternehmens-Repository gespeichert werden können.

 

Unser Fazit: Der BI Validator ist übersichtlich und einfach zu bedienen (auch ohne Programmierkenntnisse), daher können die Tests intuitiv durchgeführt werden. Für die Testläufe stehen zwei Anwendungsmöglichkeiten offen: manuell oder automatisiert.

Power Tools Desktop

Power Tools Desktop - Best Practice Analyzer
Abbildung 2: Eigener Screenshot aus dem Power Tools Desktop – Best Practice Analyzer

Um die Funktionen von Power Tools genauer zu betrachten, haben wir uns auf Power Tools Desktop (PTD) konzentriert. Mit diesem ist es möglich, eine Übersicht aller Datenfelder bei der Überprüfung von Datenquellen zu erstellen, auch mit dem Vermerk in wie vielen Ansichten und Berechnung sie auftauchen. Möchte man sich die Datenfelder genauer ansehen, ist es möglich, die Ansichten und Berechnungen direkt anzeigen zu lassen oder als Excel-Datei bzw. PDF zu exportieren. Eine weitere nützliche Funktion, um einen Überblick über alle Datensätze, Felder oder Datentypen zu erhalten, ist die Ausgabe einer allgemeinen Statistik zu Datenquellen einzelner Arbeitsmappen. Zusätzlich bietet z.B. der Style Manger an, einzelne Formatierungen der Arbeitsmappen zu erfassen und Dashboards zusammenführen.

 

Unser Fazit: Das Augenmerk bei Power Tools Desktop liegt ganz klar auf der Überprüfung der Performance von Arbeitsmappen sowie der Dokumentation von Daten. Die graphische Oberfläche ermöglicht eine einfache Navigation und die Durchführung von Analysen. Die Tests sind jedoch ausschließlich manuell möglich.

Kinesis

Kinesis: Testtypen
Abbildung 3: Eigener Screenshot aus Kinesis – Testtypen

Wie schlägt sich Kinesis mit schlanken vier Test?

  • Funktionstest: Unter anderem ist eine Simulierung von Benutzerinteraktionen und Benutzerentscheidungen sowie das Schreiben von Testfällen möglich
  • Regressionstest: Vergleich von zwei Tableau-Ansichten und die Nachverfolgung von Änderungen
  • Cross-Environment Test: Vergleich von Ansichten in unterschiedlichen Umgebungen (z.B. Standorte oder Server)
  • Performance Test: Beurteilung der Serverleistung, z.B. Antwortzeiten

 

Unser Fazit: Obwohl die Benutzeroberfläche bei Kinesis sehr einfach ist, kommen hier und da Unklarheiten auf, da diverse Mitteilungen anfangs unverständlich aufgezeigt sind –  als Hilfestellung ist dringend die Dokumentation notwendig.

QuerySurge

QuerySurge_Startbildschirm
Abbildung 4: Eigener Screenshot aus QuerySurge – Startbildschirm

Last but not least nehmen wir QuerySurge unter die Lupe. Hier wird über den Internet Explorer zugegriffen –  so sind mehre User möglich. Die Navigation funktioniert über eine graphische Oberfläche. Eine Auswertung der Testdaten erfolgt in Form von Paretodiagrammen und Korrelationsdiagrammen. Informationsmeldungen (z.B. Fehlermeldungen) werden praktischerweise direkt sichtbar auf dem Bildschirm ausgegeben. Die Ausgabe von einzelnen Reports oder Fehlersammellisten ist über Excel, CSV oder XML möglich. Mit dem BI Tester Add-On wird ergänzend eine große Bandbreite an Bereichen abgedeckt:

  • Geschäftsvalidierung von Berichten
  • Vollständiger Regressionstest der BI-Daten
  • Migrationstest von einem BI-Anbieter zu einem anderen
  • Aktualisierung von Tests von einer Version auf die andere
  • Vergleich von Berichten zwischen Servern
  • Übergabe von Parametern an einen Bericht
  • Abfragen von Berichtsmetadaten

 

Unser Fazit: Ist bei QuerySurge die Bedienbarkeit anfangs etwas schwierig, wird sie nach mehrmaliger Anwendung selbstverständlich. Diverse Tutorials sind aber sehr hilfreich. Ein Must-have zur Nutzung des Tools: Programmierkenntnisse.

Lust auf eine kleine Geschichte? Die Top 3 Business Intelligence Tools – eine Kurzgeschichte

Fazit

Die Automatisierung der Qualitätssicherung im Bereich der Datenanalyse und Datenvisualisierung birgt viele positive Aspekte – aber die Umsetzung mit passenden Tools ist ebenso wichtig, damit sie funktioniert. Umso wichtiger ist es, die Mitarbeiter bei der Überprüfung von Daten zu unterstützen, indem man ihnen das passende Tool an die Hand gibt. Natürlich hat jedes Tool seine Stärken und Schwächen. Um das passende Tool für die eigenen Verwendungszwecke zu finden, ist es daher wichtig klare Anforderungen an das Tool zu definieren. Nur so lässt sich der richtige Anbieter finden. Unser Favorit ist das Tool Query Surge: Es sind zwar SQL-Kenntnisse notwendig, wenn man jedoch hinter die Logik des Tools kommt, versteht man auch schnell die Funktionsweise. Hinzu kommt, dass die Entwickler gerade dabei sind, das Tool auch für Microsoft Power BI und Qlik kompatibel zu machen.

 

Mehr zu unseren Data Driven Services erfahren

 

Quellen:

Gudivada, Venkat N. (2017): DATA ANALYTICS: FUNDAMENTALS. In: Mashrur Chowdhury, Amy Apon und Kakan Dey (Hg.): Data Analytics for Intelligent Transportation Systems. Niederlande, Großbritanien, USA: Elsevier, S. 44–80.

Data Analytics in der Definitionskrise: Ist eine Abgrenzung des Begriffs noch möglich?

Wenn man zum ersten Mal über den Begriff Data Analytics stolpert, wird zunächst davon ausgegangen, dass es sich hierbei um eine Analyse von Daten handelt. Im ersten Ansatz ist diese Einordung auch gar nicht so verkehrt. Befasst man sich jedoch intensiver mit diesem Thema, macht sich schnell die Problematik einer klaren Definition bemerkbar. Begrifflichkeiten wie Business Analytics, Data Mining, Big Data Analytics oder auch Data Science erscheinen bei der Suche nach einer eindeutigen Definition ebenfalls auf der Bildfläche – alles scheint ineinander zu verschwimmen. Also wie lässt sich Data Analytics nun abgrenzen?

Vom Datenbanksystem zur kognitiven Verarbeitung von Daten

Data Analytics hat sich in den letzten Jahrzehnten unter verschiedenen Begrifflichkeiten wie SQL Analytics, Data Mining oder auch Big Data Analytics heraus entwickelt. Der Ursprung lag in den klassischen Datenbanksystemen wie z.B. RDBMS (Relational Database System). Mit den rasant wachsenden Datenmengen und deren Verarbeitung war eine konstante Anpassung unumgänglich – bis hin zur kognitiven Verarbeitung von Daten. Grundsätzlich kann man Data Analytics also als eine Art Oberbegriff sehen, unter dem die einzelnen Begriffe zusammengefasst werden.

Die nachfolgende Abbildung zeigt die Entwicklung in den letzten 50 Jahren:

Entwicklung von Data-Analytics in den vergangenen 50 Jahren
Abbildung 1: Erweiterte Darstellung der Entwicklung von Data Analytics nach Gudiyada (2017)1

Vier Analyseverfahren miteinander verknüpft

Data Analytics verfügt über vier Analyseverfahren, die stark miteinander verknüpft sind und sich signifikant überschneiden. Auf verschiedenen Zeitebenen versuchen die Verfahren, unterschiedliche Fragenstellungen zu beantworten: Descriptive Analytics (Was ist passiert?), Diagnostic Analytics (Warum ist es passiert?), Predictive Analytics (Was wird passieren?) und Prescriptive Analytics (Was soll geschehen?). Während Predictive Analytics also die Eintrittswahrscheinlichkeit analysiert, liefert Prespcritpive Analytics die passende Handlungsempfehlung, z.B. wie man einen bestimmten Trend beeinflussen oder ein vorhergesagtes Ergebnis verhindern kann oder auch wie man auf ein zukünftiges Ergebnis reagieren sollte. Es ermöglicht somit eine automatisierte Entscheidungsfindung.

Mehr über die vier Stufen erfahren? Hier geht es ins Detail: Buzzword Dschungel Künstliche Intelligenz (KI)

Fazit

Nach einem intensiveren Blick auf das Thema wird schnell deutlich: eine eindeutige oder gar einheitliche Definition des Begriffs Data Analytics ist weit gefehlt. Eine häufige Überschneidung der Hauptbegriffe (SQL Analytics, Business Analytics, Visual Analytics, Big Data Analytics und Cognitive Analytics) führt nicht nur zu einer schnelllebigen Weiterentwicklung der Thematik; sondern auch zu einer plötzlichen Zusammenfassung von Themen, neuen Beschreibungen oder sogar völlig neuen Kreationen an Begrifflichkeiten.

Noch nicht genug? Hier Teil 2 der Data-Analytics Reihe lesen

 


1 Gudivada, Venkat N. (2017): DATA ANALYTICS: FUNDAMENTALS. In: Mashrur Chowdhury, Amy Apon und Kakan Dey (Hg.): Data Analytics for Intelligent Transportation Systems. Niederlande, Großbritanien, USA: Elsevier, S. 44–80.

Hier mehr über unsere Data Driven Services erfahren