Data Driven Services

Business Intelligence (BI) und Analytics mit dem Scalable Data Hub: Weiterentwicklung des klassischen Data Warehousing

Sandra Rueß

5 MIN LESEDAUER

13.10.2016 –

Das Konzept des klassischen Data Warehousing kann die heutigen Anforderungen für ein effizientes Datenmanagement in Sachen Verfügbarkeit, Datenvielfalt und Flexibilität in keinem akzeptablen Kosten-Nutzen-Verhältnis mehr erfüllen. Eine gute Skalierbarkeit ist in traditionellen Lösungen weder aus technischer noch aus wirtschaftlicher Sicht gegeben. Hohe Kosten pro Terabyte machen es unwirtschaftlich, sowohl verdichtete Daten als auch Rohdaten über lange Zeiträume zu speichern. Business Intelligence (BI) und Analytics mit existierenden, proprietären Technologien übersteigen somit oft die verfügbaren Budgets.

Der ganzheitliche Ansatz eines Scalable Data Hub greift das Konzept des klassischen Data Warehousing teilweise wieder auf, setzt mit Hadoop jedoch auf ein Framework für hoch-skalierbare, massiv-verteilte Datenverarbeitung als neue technologische Basis.
Dieser Beitrag zeigt die Probleme klassischer Data Warehouses (DWH) auf und beschreibt, wie der Scalable Data Hub mit Hadoop neue Möglichkeiten hinsichtlich Performance, Granularität und der Einbindung unstrukturierter Daten eröffnet.

Probleme und Schwächen des klassischen Data Warehousing

Die in den 90er Jahren entwickelte Idee hinter Business Intelligence und Data Warehouses hat sich grundsätzlich bis heute bewährt. So integriert das Data Warehouse alle relevanten Daten aus heterogenen und verteilten Datenquellen und stellt übergreifende Sichten bereit, die von Auswertungswerkzeugen einfach verarbeitet werden können. Der klassische Data Warehouse-Ansatz bringt in dieser Form allerdings einige grundlegende Probleme mit sich:

• Um agil auf neue geschäftliche Situationen reagieren zu können, benötigen Fachanwender wie z.B. Controller, Manager oder Analysten granulare Daten. In klassischen DWH werden diese jedoch mitunter gar nicht gehalten oder zu früh nach dem Laden in Offline-Archive ausgelagert. Eine Verarbeitung und Auswertung dieser Daten ist somit nicht mehr möglich. Fachanwender geraten mit aktuellen Systemen daher schnell an ihre Grenzen.
• Oft werden lediglich die Daten in das DWH geladen, für die bereits definierte analytische Anforderungen des Fachbereichs vorliegen. Für Fachanwender ist es damit nicht möglich, zu ermitteln, welche neuen Anwendungsfälle sich mit neuen (nicht im DWH verfügbaren) Daten realisieren lassen würden – wichtige Potentiale werden verschenkt.
• Unstrukturierte Daten sind in klassischen DWH kaum präsent. Big Data-Analysen sind somit nicht voll umsetzbar. Historische Daten werden aus Kostengründen nur begrenzt gehalten, was wiederum viele Ansätze für Predictive Analytics unmöglich macht.
• Die Skalierbarkeit hinsichtlich steigender Datenvolumina und Anwender ist bei klassischen DWH grundsätzlich gegeben. Allerdings steigen die dabei entstehenden Kosten für Hard- und Software sowie Betrieb beinahe linear und stehen damit nicht mehr im Verhältnis zum Nutzen.
• Um eine annehmbare Performance zu erreichen, erfordern viele DWH-Datenbanken ein komplexes Management von Aggregaten, Partitionierung und Indizes. Für Reportings und begrenzt für Drill-Down-Analysen ist dieser Ansatz passend. Für ad-hoc-formulierte Anfragen, wie etwa Data Exploration kann er jedoch nicht die erforderlichen Antwortzeiten erbringen.

Apache Hadoop: Weiterentwickelte Architektur für Big Data und Analytics

Um Lösungen für die aufgeführten Probleme zu finden, wurden in den vergangenen Jahren viele Ideen und Konzepte entwickelt. Viele Unternehmen haben seitdem erste Proof-of-Concepts (PoCs) mit neuen Big-Data-Analytics Technologien durchgeführt. Untersucht wurden dabei diverse Ansätze wie Hadoop, Predictive Analytics, In-Memory-Datenbanken (IMDB) oder eine Kombination aus diesen. Allerdings sind die Architekturen dieser PoCs meist sehr spezifisch auf die zugrunde liegenden Anwendungsfälle zugeschnitten. Ein Übertrag auf andere Use Cases ist nur mit hohen Anpassungsaufwänden möglich.
Wie könnte jedoch eine Architektur für alle BI- und Big Data Analytics-Anwendungsfälle eines Unternehmens aufgebaut sein? Zu dieser zukünftigen ganzheitlichen Architektur trägt vor allem die Technologie Hadoop bei.

Apache Hadoop – hoch skalierbar bei verteilter Datenverarbeitung

Apache Hadoop ist ein freies, in Java geschriebenes, Framework für hoch-skalierbare, massiv verteilte Datenverarbeitung. Zentrale Elemente stellen der von Google Inc. entwickelte MapReduce-Alogrithmus sowie das Hadoop Filesystem (HDFS) dar. MapReduce parallelisiert die Datenverarbeitung und verteilt diese auf alle beteiligten Knoten des Rechnerclusters, wodurch beachtliche Geschwindigkeitsvorteile erzielt werden können. Im HDFS lassen sich extrem große Datenmengen (Petabyte-Bereich) kostengünstig speichern und parallel abgreifen.

Hadoop ist in den vergangenen Jahren deutlich gereift und hat sich für den branchenübergreifenden Einsatz in Unternehmen bewährt. Um den Kern der verteilten Datenhaltung in HDFS und der Verarbeitung in MapReduce gruppieren sich heute weitere Apache-Open-Source-Projekte in Bereichen wie Daten-Zugriff, Integration, Sicherheit und Betrieb. Essentielle Weiterentwicklungen im Hadoop-Ökosystem sind beispielsweise:

• Ad-hoc-Datenzugriffe über interaktive SQL-Schnittstellen.
• Enge Integration mit führenden Anbietern für Predictive Analytics-Lösungen.
• SQL-basierte Tools ermöglichen nun auch Fachanwendern den Zugriff auf das HDFS.
• Das Thema Datenschutz war bisher eine Schwachstelle von Hadoop. Heute sind Hadoop-Management-Werkzeuge verfügbar, die Zugriffe auditieren sowie Zugriffsrechte auf der Ebene von Hadoop- Dateien, Schemas, Tabellen und Views ermöglichen.

Scalable Data Hub auf Basis von Hadoop: Leistungsstarke Architektur zur Lösung der Probleme des klassischen Data Warehousing

doubleSlash hat mit dem Scalable Data Hub ein neues und ganzheitliches Konzept für BI und Analytics entwickelt. Ähnlich dem klassischen DWH deckt der Scalable Data Hub die Anbindung, Integration und Aggregation von Daten aus heterogenen Quellen ab. Mit Hadoop setzt der skalierbare Hub jedoch auf eine leistungsstarke Architektur, welche die Verarbeitung komplexer Daten und die Bereitstellung erweiterter funktionaler Services ermöglicht. Unter Nutzung dieser technischen Fortentwicklung bietet der Scalable Data Hub Lösungsansätze für die meisten Probleme des klassischen DWH:

Problem	Lösung im Scalable Data Hub
Kosten-Nutzen-Verhältnis	Die zugrunde liegende Software für Hadoop ist größtenteils Open-Source. Hadoop selbst stellt keine besonderen Anforderungen an die Hardware. Vorhandene Systeme können eingesetzt bzw. durch günstige verfügbare Hardware ersetzt werden. Damit ist Hadoop heute für große Datenvolumina die kostengünstigste Form der Datenhaltung und bis zum Faktor 1.000 günstiger als klassische DWH-RDBMS.
Unstrukturierte Daten	Der Scalable Data Hub ermöglicht die Datenhaltung und Bereitstellung sowohl für strukturierte als auch für unstrukturierte Daten (z.B. Sensor- und RFID-Daten, E-Mails, Logfiles oder Daten des vernetzten Fahrzeugs).
Granulare Daten	Im Gegensatz zum klassischen DWH werden die Daten im Scalable Data Hub granular gehalten (häufig auch Rohdaten). Somit wird eine vorzeitige Verdichtung der Daten und der damit einhergehende Ausschluss möglicher neuer Analysen verhindert. Dies ist insbesondere für Predictive Analytics relevant.
Historische Daten	Aufgrund des günstigen Kosten-Nutzen-Verhältnisses ermöglicht der Scalable Data Hub auch die Haltung und Bereitstellung von Daten, auf die selten zugegriffen wird, wie z.B. Daten, die aus Compliance-Gründen gehalten werden müssen.
Daten ohne fachliche Anforderung	Der Scalable Data Hub dient als zentrale Plattform für die Bereitstellung aller entstehenden Daten für die Fachanwender. Auf dieser umfänglichen Basis lassen sich neue und sinnvolle analytische Anwendungsfälle identifizieren und realisieren.

Die wesentlichen Argumente für Hadoop sind das sehr günstige Verhältnis von Kosten pro Datenvolumen sowie die Skalierbarkeit bei wachsendem Datenvolumen. Mit dem Scalable Data Hub auf Basis von Hadoop können Unternehmen ihr Datenmanagement nachhaltig und zukunftsfähig aufbauen, ihre IT-Kosten neu strukturieren und die nötige Flexibilität für die fachliche Fortentwicklung sowie analytischen Anwendungsfälle gewinnen.

Fazit

Hadoop ist eines der Kernelemente einer neuen und ganzheitlichen Architektur für BI und Big Data Analytics. Das Konzept des Hadoop-basierten Scalable Data Hub greift die Idee des klassischen DWH auf, ist ihm technisch jedoch überlegen und den heutigen Anforderungen – wie kostengünstiges Datenvolumen, Skalierbarkeit und Vielfalt an auswertbaren Datentypen – gewachsen. Ein Datenhub auf Basis dieser leistungsstarken Technologie stellt eine zukunftsfähige Plattform für BI und Analytics dar.

Mehr zum Scalable Data Hub erfahren Sie hier

Business Intelligence (BI) und Analytics mit dem Scalable Data Hub: Weiterentwicklung des klassischen Data Warehousing

Probleme und Schwächen des klassischen Data Warehousing

Kommentar verfassen