Data Driven Services

Wie viel Data Lake steckt in einem Scalable Data Hub?

Patrick Treiber

5 MIN LESEDAUER

20.04.2017 –

Zu Beginn lässt sich schon mal sagen, dass die Begriffe Data Lake und Scalable Data Hub nicht als Synonyme zueinander stehen. Sie sind aber auch nicht komplett verschieden. Der Scalable Data Hub wurde bereits im Blogbeitrag Business Intelligence (BI) und Analytics mit dem Scalable Data Hub sehr gut beschrieben und von dem klassischen Enterprise Datawarehouse (EDW) abgegrenzt. Das EDW ist aber nicht das einzige System, dessen positive Eigenschaften in den Scalable Data Hub einfließen. Die Eigenschaften eines Data Lakes eignen sich sehr gut dafür, die Schwachstellen eines EDW auszugleichen und zu ergänzen.

Scalable Data Hub trifft Data Lake

Ein Scalable Data Hub soll sich durch den Einsatz von skalierbaren Technologien, elastisch an den wechselnden Bedarf von Rechen- und Speicherressourcen anpassen können. Das bedeutet, dass er bei geringen Datenmengen in minimalem Umfang betrieben werden kann. Wenn die Datenmengen zunehmen, kann der Scalable Data Hub dementsprechend „wachsen“, und bei abfallendem Bedarf wieder „schrumpfen“. Diese Eigenschaft ermöglicht eine effiziente Ressourcennutzung, die im Big Data Umfeld von Vorteil ist.

Durch Fortschritte in den Bereichen Industrie 4.0 und IoT, steigt zudem die Menge an Daten von unterschiedlichen Datenquellen, die verarbeitet werden müssen. Es kommt außerdem noch dazu, dass Systeme nicht nur in der Lage sein müssen, große Datenmengen zu bewältigen, sie müssen diese auch überwachen und bei Auffälligkeiten mit möglichst niedriger Latenzzeit reagieren. Das Streben nach Kosteneffizienz ist in diesem Zusammenhang ein zusätzlicher Auslöser für die Suche nach einem System, das diesen Herausforderungen gewachsen ist.

An dieser Stelle kommen die Eigenschaften eines Data Lakes positiv im Scalable Data Hub zum Einsatz. Der Begriff „Data Lake“ entstand ursprünglich in der Hadoop Community und beschreibt einen Storage für Rohdaten. Dieser Storage löst bisherige Daten-Silos ab und bündelt die darin gesammelten Daten zentral.

Der bereits von Sandra Rueß erwähnte Informationsverlust, der während eines Extract-, Transform-, Load-Prozesses (ETL) auftreten kann, wird beim Data Lake durch die Speicherung von Rohdaten umgangen. Somit können große Datenmengen aus den verschiedensten Quellsystemen gesammelt werden.

Dies geschieht unter der Verwendung von horizontal stark skalierbaren Technologien, wie sie beispielsweise vom Hadoop Ökosystem und dessen Komponenten geboten werden. In dem Hadoop Distributed File System (HDFS) können Rohdaten abgelegt werden, um sie zu einem späteren Zeitpunkt in einem fachlichen Kontext aufzubereiten. Bei einer horizontalen Skalierung können weitere Knoten (Recheneinheiten) in einem Computer-Cluster hinzugezogen und auch wieder freigegeben werden. Dadurch lässt sich technisch die zuvor erwähnte Elastizität erreichen[2].

Mehrwert des Data Lake für den Scalable Data Hub

Als zentrale Datendrehscheibe bietet der Scalable Data Hub eine zentrale, vollständige und konsistente Datenbasis, die unter Anderem als Basis für Business Intelligence (BI) und Datenanalysen dient. Zu dieser Datenbasis zählen auch Rohdaten, die ohne eine vorherige Bearbeitung in den Scalable Data Hub geladen werden können. Genau dieser Punkt der Rohdatenspeicherung wird durch die Eigenschaften des Data Lakes unterstützt.

Damit die Rohdaten auch nach längerer Zeit noch genutzt werden können, ist die Erhebung und Verwaltung von Metadaten ein essenzieller Bestandteil eines Data Lakes. Die Metadaten können beispielsweise Aufschluss über die Herkunft, Qualität, Quantität und Struktur der Daten geben. Für explorative Datenanalysen bieten diese Metadaten eine wertvolle Grundlage. So können beispielsweise Informationen über die Datenquellen gewonnen werden, indem abgeglichen wird, wie gut die Datenqualität im Vergleich zu anderen Quellen ist. Für Anwendungsfälle aus den Bereichen Industrie 4.0 und IoT würde dies z.B. bedeuten, dass präventiv Sensoren überwacht werden könnten. Eine Verschlechterung der Datenqualität eines Sensors könnte demnach auf einen baldigen Defekt des Bauteils hinweisen.

Rohdaten und ihr Einfluss auf Enterprise Ware House und Scalable Data Hub

Die Nutzung typischer EDW-Funktionen ist durch den Einfluss des Data Lakes in einem Scalable Data Hub natürlich nicht ausgeschlossen. Im Gegenteil! Eine Rohdatenbasis bietet die optimale Datengrundlage für ETL-Prozesse im Sinne des klassischen EDW. Unter Verwendung des herkömmlichen Vorgehens Schema-On-Write[1], musste der Anwender sich vor dem Laden der Daten genau darüber Gedanken machen, welche Daten er braucht und welche nicht. Eine spätere Änderung der Datenmodelle oder der Datenstrukturen, durch sich ändernde fachliche Anforderungen, ist unter Verwendung des Schema-On-Write äußerst aufwändig.
Der Nutzer des Scalabale Data Hub kann sich dagegen das sogenannte Schema-On-Read[1] bedienen, wodurch sich die fachlichen Anforderungen an die Datenstrukturen und Modelle an der Betrachtung der Rohdaten orientieren können. Somit können sich bisher noch unentdeckte Verbindungen zwischen Daten aus verschiedenen Datenquellen identifizieren lassen. Dies erweitert die Möglichkeiten zur Gewinnung neuer Key Performance Indicators (KPIs).

Wie es sich schon vermuten lässt, können die Anforderungen eines Data Lakes an die Datenhaltung, durch eine „einfache“ relationale Datenbank nicht erfüllt werden. Der Scalable Data Hub setzt deshalb, ebenso wie der Data Lake, auf hoch skalierbare Technologien, die sich für die Speicherung von Rohdaten eignen. Wichtig dabei ist, dass die Daten unabhängig von deren Struktur abgelegt werden können. Aus diesem Grund kann für den Betrieb eines Data Lakes Hadoop mit dessen Hadoop Distributed File System (HDFS) als Storage verwendet werden. Viele Technologien rund um Hadoop haben sich in diesem Zusammenhang in der Praxis bereits bewährt.

Da der Scalable Data Hub mit seiner zentralen Datenhaltung einen Single-Point-Of-Truth einnimmt, trägt er ebenfalls die Verantwortung für die Sicherheit der sich darin befindenden Daten. Dazu zählen beispielsweise wie lange die Daten in dem Data Hub gespeichert werden sollen, wer Zugriff auf die Daten hat und welche Aktionen auf die Daten ausgeführt werden dürfen. Der Data Lake bietet Konzepte für den Umgang mit Datensicherheit, Governance und Lifecycle Management, die für eine zentrale Datendrehscheibe wie die des Scalable Data Hub essentiell sind. Dazu gehört die Unterstützung von Verfahren zur Authentifizierung und Autorisierung von Anwendern sowie Systemen die mit dem Scalable Data Hub interagieren möchten. Ebenso enthält ein Data Lake Komponenten, welche die Lebenszyklen von Daten überwachen und die Richtlinien für eine einheitliche Datenqualität gewährleisten.

Fazit

Der Scalable Data Hub nutzt somit die Stärken eines Data Lakes in Verbindung mit Big Data Technologien. Denn für eine zentrale Datenhaltung braucht es resiliente, performante und skalierbare Technologien, welche eine hohe Verfügbarkeit der Daten gewährleisten. Die dadurch entstehenden Möglichkeiten für Datenanalysen aus allen Disziplinen sind enorm. Der Data Lake bietet somit sehr gute ergänzende Eigenschaften die auch Einfluss auf die Sicherheit, Lebenszyklen und Qualität der Daten in einem Scalable Data Hub haben.

Quellen:

[1] https://blogs.oracle.com/datawarehousing/entry/big_data_sql_quick_start10
[2] https://de.wikipedia.org/wiki/Rechnerverbund

Mehr zum Scalable Data Hub erfahren Sie hier

Wie viel Data Lake steckt in einem Scalable Data Hub?

Scalable Data Hub trifft Data Lake

Mehrwert des Data Lake für den Scalable Data Hub

Kommentar verfassen