Best Practices: Welches ist das richtige Werkzeug für die Datenaufbereitung mit Tableau

24.02.2020

Im Bereich Datenaufbereitung gibt es eine ständige Herausforderung: Wie werden die Daten am besten für Tableau aufbereitet? Und sind hierfür Tools wie Knime oder Tableau Prep oder gleich eine eigene Programmierung sinnvoller? Mit Glück haben die Unternehmen sich für einen Toolweg entschieden und der IT-Dienstleister kann diesem folgen. Wie aber vorgehen, wenn es keinerlei Vorgaben gibt? Anhand von folgenden fünf Fällen haben wir uns drei „Werkzeuge“ genauer angeschaut und beleuchten die Vor- und Nachteile der einzelnen Lösungen:

  1. Sehr große Datensätze (Dateien mit mind. 3 Mio. Datensätzen werden getestet)
  2. Komplexe Logik (werden bestimmte Logiken z.B. Loops unterstützt)
  3. Fehleranalyse (wie und wann werden Fehler vom Tool angezeigt)
  4. Verbindung zu verschiedenen Datenquellen (welche Verbindungen zu unterschiedlichen Datenquellen sind möglich)
  5. Automatisierung (Aktualisierung)

Unser Supporter für diesen Zweck ist ein HP Elitebook (RAM 16GB; Intel® Core™ i5-8250U CPU 1.60 GHz).

In der Übersicht: Wann ist welches Werkzeug sinnvoll

Für eine übersichtliche Empfehlung, in welchem Fall die getesteten Werkzeuge sinnvoll sind, haben wir in drei Kategorien eingeteilt (grün=für diesen Fall empfehlenswert, gelb=für diesen Fall mit Einschränkungen empfehlenswert, rot=für diesen Fall nicht empfehlenswert).

Übersicht und Einordnung Werkzeuge zur Datenaufbereitung mit Tableau
Abbildung 1: Übersicht Einordnung Werkzeuge Datenaufbereitung mit Tableau nach Kategorie, Eigene Darstellung

Tableau Prep – Nix für komplexe Logik

Fall 1: Sehr große Datensätze
Bei sehr großen Datensätzen kann es zu Einschränkungen der PC-Performance (CPU und Arbeitsspeicher) und von Tableau Prep kommen – bis hin zum kompletten PC-Absturz. Dabei geht der Arbeitsstand verloren und es muss von vorne begonnen werden.
Unser Testergebnis: nicht empfehlenswert.

Fall 2: Komplexe Logik
Es lässt sich keinerlei komplexe Logik abbilden.
Unser Testergebnis: nicht empfehlenswert.

Fall 3: Fehleranalyse
Fehler werden zwar sofort entweder im Bearbeitungsfenster oder im Bereich Benachrichtigungen angezeigt, jedoch können diese sehr kryptisch und knapp ausfallen.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 4: Verbindungen zu verschiedenen Datenquellen
Dateien können von MS Access, CSV, PDF, XLS, Statistikdaten oder Tableau-Extrakte importiert werden. Es werden nicht so viele Verbindungen wie bei Tableau Desktop geboten.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 5: Automatisierung
Wäre der Tableau Prep Conductor nicht lizenziert, wäre im Test eine automatisierte Ausführung auf Tableau Server mit Tableau Prep Conductor möglich. Eine lokale Automatisierung ist lokal durchführbar (Batch, JSON), der PC muss aber durchgehend angeschaltet sein.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Knime: komplexe Logik und große Datensätze

Fall 1: Sehr große Datensätze
Im Bereich großer Datensätze muss bei Knime am Ende geprüft werden, ob alle Berechnungen und Änderungen funktionieren. Das Ergebnis: es führt zu Performance-Einschränkungen, jedoch nicht zum Absturz. Wie bei Tableau Prep gibt es den Bonus, dass die Daten in der Stichprobe auf eine bestimmte Anzahl eingeschränkt sind (bis zu 1 Mio. frei wählbar). Ein weiterer Vorteil ist, dass bei Knime die Daten erst durchlaufen werden, wenn es vom User angestoßen wird.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 2: Komplexe Logik
Mit über 2.000 Knotenpunkten und der Möglichkeit, eine komplexe Logik abzubilden ist Knime für diesen Fall empfehlenswert. Und gibt es mal keinen Node, um eine Logik abzubilden, kann sie in einem Node mit Java oder Python abgebildet und ausgeführt werden. Das Große Online-Register für Knoten sowie die hilfreiche Online-Community wiegen auch den Nachteil aus, dass Know-how aufgrund der vielen Funktionen dringend notwendig ist.
Unser Testergebnis: empfehlenswert.

Fall 3: Fehleranalyse
Warnungen und Fehler werden in Form von Symbolen oder Ampelfarben sofort im Knoten angezeigt, wobei eine Überprüfung von Knoten zu Knoten möglich ist. Meldungen können außerdem auch auf einer Konsole angezeigt werden. Einziges Manko: Fehlermeldungen sind teilweise nicht leicht nachvollziehbar, da das Error-Handling eines Knoten dem Creator unterliegt.
Unser Testergebnis: empfehlenswert.

Fall 4: Verbindungen zu verschiedenen Datenquellen
Es können Verbindungen zu einer großen Bandbreite an Datenquellen hergestellt werden – Textformate (CSV, PDF, XLS etc.), Unstrukturierte Datentypen (Bilder, Dokumente, Netzwerke etc.) oder Datenbanken und Data Warehouse Lösungen (Oracle, ApacheHive, Azure etc,), Twitter und Google usw.
Unser Testergebnis: empfehlenswert.

Fall 5: Automatisierung
Die Vorteile im Falle der Automatisierung heben sich bei Knime meist wieder auf. So ist zwar eine automatische Ausführung auf dem Knime-Server möglich, der ist aber wiederum lizenziert. Ebenfalls ist auf der einen Seite ein automatisierter Durchlauf (z.B. Batch) realisierbar, auf der anderen Seite jedoch keiner für Workflowketten umsetzbar.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Python: Mit Geduld zu maximaler Flexibilität und Aufbereitung großer Datensätze

Fall 1: Sehr große Datensätze
Im Falle sehr großer Datensätze ist es möglich, den gesamten Code zu schreiben, ohne die Daten anzufassen und es gibt kaum Performance-Einschränkungen. Ein Aber gibt es: die Fehleranalyse nimmt viel Zeit in Anspruch.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 2: Komplexe Logik
Python ist im Kontext der komplexen Logik sehr frei in der Entwicklung. Funktionen wie z.B. FOR– oder While Schleifen stehen zur Verfügung. Um die komplexen Logiken umfänglich nutzen zu können, ist Know-how in der Sprache daher zwingend notwendig.
Unser Testergebnis: empfehlenswert.

Fall 3: Fehleranalyse
Durch einen Debugger ist eine direkte Dateneinsicht und bessere Fehlerverständlichkeit gegeben – und die Verwendung von Python Console ist auch während dem debuggen möglich. Jedoch werden Fehler bei Python erst angezeigt, wenn sie auftreten. Bei einem sehr großen Datensatz kann das schon mal eine halbe Stunde dauern.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fall 4: Verbindungen zu verschiedenen Datenquellen
Eine Verbindung zu Dateiformaten (z.B. CSV, XLS, TSV, Datei etc.) ist möglich. Datenbanken und Data Warehouse Lösungen sind teilweise direkt integriert.
Unser Testergebnis: empfehlenswert.

Fall 5: Automatisierung
Eine Automatisierte Ausführung ist direkt auf den Servern möglich und eine lokale Automatisierung (z.B. Batch) wird ebenfalls geboten. Datenbanken und Data Warehouse Lösungen müssen jedoch Python Skripte unterstützen und der PC muss angeschaltet sein.
Unser Testergebnis: mit Einschränkungen empfehlenswert.

Fazit

Alle drei „Werkzeuge“ bzw. Lösungen bieten die Möglichkeit Daten auf verschiedene Art und Weise aufzubereiten. Nachdem wir die Lösungen in fünf Fällen untersucht haben, wird schnell ein Muster deutlich. Tableau Prep ist für eine schnelle und einfache Datenaufbereitung von kleineren Datensätzen sinnvoll. Da der Workflow auf den Tableau Server eingebunden werden kann, ist der Zugriff und die Bearbeitung des Workflows von überall möglich. Sollen komplexe Logiken und größere Datensätze aufbereitet werden, empfiehlt sich Knime oder Python.

 

Mehr über unsere Data Driven Services erfahren

 

Diese Blogbeiträge könnten dich auch interessieren:

Automatisierte Qualitätssicherung im Kontext von Data Analytics

Die Top 3 Business Intelligence Tools – eine Kurzgeschichte

Zurück zur Übersicht

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*Pflichtfelder

*