Den Nutzen von Big Data auch ohne Big Data Technologien erreichen

Vor allem in mittelständischen Unternehmen gilt Big Data mitunter als eine Art „eierlegende Wollmilchsau“. Die Einschätzung „Heute macht man das halt mit BigData, Spark, SMACK-Stack, Hortonworks, in der Cloud mit AWS“ führt häufig zu sehr komplexen Lösungen mit hohen Anforderungen an die Hardware. Ein Aufwand, der in vielen Fällen aber gar nicht erforderlich wäre oder gar ungeeignete Lösungen bringt. Zumal die Kosten oft den Nutzen deutlich übersteigen. Vor diesem Hintergrund gerieten klassische Technologien wie relationale Datenbanken durch neue Technologien, Produkte und Paradigmen im Big Data Umfeld in den Hintergrund.

Davon ausgehend beleuchten wir nachfolgend klassische Technologien, die in der Literatur im Big Data Umfeld als nicht leistungsfähig eingestuft werden, hinsichtlich Skalierungsmöglichkeiten. Ziel ist es zu validieren, wie zum Beispiel auch mit relationalen Datenbanken der Nutzen von Big Data Instrumenten erreicht werden kann und ob es eindeutige Indikatoren dafür gibt, ab wann man tatsächlich sinnvollerweise auf Big Data Technologien setzen sollte.

Es muss nicht immer Big Data sein

Grundsätzlich gilt: Mit der Einführung von Big Data Technologien muss auch die IT-Infrastruktur angepasst werden, um die Anwendungen auch optimal betreiben zu können.

Eine solche Anpassung an Big Data Technologie ist vor allem dann notwendig, wenn es darum geht, semistrukturierte oder unstrukturierte Daten zu analysieren. Klassische Technologien wie relationale Datenbanken sind hier durch ihre technischen Restriktionen weniger geeignet, denn mit diesen kann nur auf strukturierten Daten direkt gearbeitet werden.

Liegen allerdings bereits strukturierte Daten vor, muss es nicht zwingend eine Big Data Technologie sein. Hier sollte man zunächst anhand des Anwendungsfalls bewerten, ob eine Optimierung der bestehenden Technologie oder eine Anpassung der Fragestellung ausreichend ist. Möglicherweise genügt eine Ja/Nein Entscheidung anstatt der exakten Berechnung mit feingranularer Wahrscheinlichkeitsrechnung.

3-V Model als Indikator für Big Data

Eine eindeutige Einstufung, ab wann Big Data Technologien eingesetzt werden sollten, existiert nicht. Allerdings ist es anhand des sogenannten 3-V-Modells möglich zu erkennen, ob der Einsatz von Big Data Technologien hilfreich wäre.

Die Metriken Datenvolumen, -geschwindigkeit und -vielfalt

(Quelle: https://gi.de/informatiklexikon/big-data/)

Die Metriken Datenvolumen, -geschwindigkeit und -vielfalt charakterisieren die Anforderungen für einen Anwendungsfall. Je nach Ausprägung der drei Eigenschaften lässt sich abschätzen, ob moderne Technologien eingesetzt werden sollten.

Liegen in mehreren Datenbereichen die höchsten beziehungsweise zweithöchsten Anforderungen vor (äußerster und zweiter Ring von außen), ist der Einsatz moderner Technologien bzw. Big Data sinnvoll. Stellen hingegen nur einzelne Anforderungen in einem Bereich hohe Anforderungen (zum Beispiel „besonders schnell, aber kein hohes Datenvolumen“, oder „sehr hohes Datenvolumen per Batchjobs“), muss jeder Anwendungsfall individuell beurteilt werden, ob sich Big Data Technologien anbieten oder ob es bessert ist, klassische Technologien zu optimieren.

Optimierungsmöglichkeiten von klassischen Technologien

Best Practices um Skalierungspotenziale relationaler Datenbanken auszuschöpfen:

  • Grundsätzlich sind die Daten in relationalen Systemen unsortiert, aufgrund dessen kann das Anlegen von Indizes zu schnelleren Zugriffszeiten führen.
  • Das Verlagern von Teilrelationen in den Arbeitsspeicher kann zur schnelleren Verarbeitung der Daten führen, da die Daten nicht mehr zwischen Arbeitsspeicher und Festplattenspeicher übertragen werden.
  • Das Erstellen von Partitionen und Replikationen führt zu parallelen oder einzelnen Zugriffen auf verschiedene Teilrelationen einer Datenbank. Dadurch ist eine parallele Verarbeitung gewährleistet, oder es werden nur relevante Daten einer Relation zur Analyse verwendet.
  • Das Einrichten einer Master-Slave-Architektur orientiert sich am verteilten Datenmanagement, das auch Hadoop verwendet. Dadurch können Datensätze auf unterschiedlichen Servern verteilt und parallele Analysen durchgeführt werden, indem die Last einer Anfrage aufgeteilt wird.
  • Für die „Vorverarbeitung“ der Daten und zur späteren Präsentation der Ergebnisse lassen sich materialisierte Sichten verwenden, um Zeit zu sparen.

 

Fazit:

Big Data Technologien können in vielen Situationen eine Lösung bieten, die ohne diese nicht möglich gewesen wäre. Die Entscheidung zum Einsatz solcher Technologien muss aber gut überlegt sein, denn der Einsatz ist kostspielig und aufwändig. Das 3-V-Modell kann helfen zu entscheiden, ob nicht auch schlankere und damit günstigere Ansätze ebenso zum Ziel führen können.

Co-Autor Bartu Uysal

 

Mehr zu Datenintegration gibt’s hier

Buzzword Dschungel Künstliche Intelligenz (KI) – die wichtigsten Begriffe auf einen Blick

In unseren Gesprächen mit Kunden und Partnern werden häufig Begriffe wie Künstliche Intelligenz (KI), Data Science oder Machine Learning in einem Atemzug genannt. Dabei schwirren zahlreiche Schlagworte durch die Gegend, die häufig gar nicht so klar voneinander abgrenzbar sind oder als Synonyme verwendet werden. Hier möchten wir Licht ins Dunkel bringen und einen kurzen und klaren Überblick über die wichtigsten Begriffe geben, diese kurz erläutern und zueinander abgrenzen.

Künstliche Intelligenz, Machine Learning, Neuronale Netze

KI bezeichnet die Automatisierung von menschlichem Verhalten. Man unterscheidet hierbei zwischen der starken und schwachen KI.

Vergleich Starke-Schwache KI
Vergleich Starke-Schwache KI

Von einer starken KI mit eigenem Bewusstsein und Empathie ist die Wissenschaft noch meilenweit entfernt. Wenn heutzutage von Künstlicher Intelligenz gesprochen wird, dann bezieht sich dies auf Anwendungsfälle im Bereich der schwachen KI. Diese Systeme sind in der Lage einzelne, klar abgegrenzte Aufgaben, wie z.B. Bilderkennung, gut zu lösen. Sie erlangen dabei aber kein tiefergehendes Verständnis des dahinterliegenden Problems und erscheinen dadurch nur nach außen intelligent.

Teilmengen Künstliche Intelligenz
Teilmengen Künstliche Intelligenz

Die schwache KI basiert dabei auf Methoden der Mathematik und Informatik. Ein wichtiges Subset von Methoden in diesem Bereich wird unter dem Begriff Machine Learning zusammengefasst. Neuronale Netze wiederum sind innerhalb des „Werkzeugkastens“ Machine Learning eine Methode bzw. ein Tool das eingesetzt werden kann. Innerhalb dieser Methode stellt das Deep Learning eine ganz spezielle Ausprägung eines neuronalen Netzes dar.

Data Analytics, Data Science, Data Mining

Unter Data Analytics versteht man zunächst alles was mit einer zielgerichteten Analyse von Daten zu tun hat. Auf Basis des Ergebnisses dieser Analyse sollen neue Schlussfolgerungen und Handlungsempfehlungen ermöglicht werden. Unter dem Begriff Data Analytics haben sich über die Zeit weitere Disziplinen, wie beispielsweise Data Science entwickelt.

Data Science ist der Überbegriff für eine Reihe an Methoden und Algorithmen mit denen man aus Daten Wissen generieren kann. Hierzu kommen ausgereifte Verfahren aus dem Bereich Mathematik, Statistik und Informatik zum Einsatz. Um die Ergebnisse dieser Verfahren auch korrekt interpretieren zu können, ist es notwendig, dass ein Data Scientist auch ein entsprechendes fachliches Wissen (z.B. über die Funktionsweise einer Windkraftanlage) mitbringt bzw. im Verlauf eines Projekts aufbaut. Mit Data Science ist man in der Lage, sowohl strukturierte Daten (z.B. eine Tabelle mit fest definierten Attributen wie Alter, Name, etc.), unstrukturierte Daten (z.B. ein komplexer Text in natürlicher Sprache) und semistrukturierte Daten (ein Mix aus strukturierten und unstrukturierten Daten) zu analysieren.

Data Science

Data Mining ist als ein Teilbereich innerhalb von Data Science zu verstehen. Ziel ist es, bisher unbekannter Querverbindungen, Trends oder Muster in großen Datenmengen zu finden. Dabei werden auch Methoden eingesetzt, die im Bereich Machine Learning Anwendung finden (z.B. Clustering). Da diese Methoden aber quasi „von Hand“ durch einen Menschen auf Daten angewendet werden, bringen Data Mining Techniken (im Gegensatz zu Machine Learning) keine selbstlernenden Mechanismen mit. Bildlich gesprochen lernt der Mensch und nicht die Maschine.

Rollen in einem Data Science Projekt

Innerhalb von Data Analytics Projekten benötigt man ganz unterschiedliche Skills und Experten. Die zugehörigen Rollen sind dabei sehr breit gefächert und oft nicht ganz klar voneinander abzugrenzen. Ein Data Scientist kann beispielsweise auch Aufgaben übernehmen, die man eher einem Data Engineer zuordnen würde und umgekehrt. So muss ein Data Scientist auch häufig Daten aufbereiten, da dies ein elementarer Bestandteil von vielen Datenanalyse-Projekten ist.

Data Science Projekt Rollen
Data Science Projekt Rollen

 

Im Data Analytics gibt es vier verschiedene Stufen, um große Datenmengen zu analysieren.

Analyseansätze im Data Analytics

Analyseansätze im Data Analytics

 

Jede Stufe ist mit einer bestimmten Fragestellung verknüpft – die es gilt zu beantworten. Dabei steigt die Komplexität, um zu einer zielgerichteten Antwort auf die jeweilige Frage zu kommen. Gleichzeitig steigt aber auch der entsprechende Mehrwert der damit verbunden ist.

Machine Learning- Business Value und Komplexität

 

Business Intelligence, Advanced Analytics

Sowohl Business Intelligence als auch Advanced Analytics sind häufig verwendete Begriffe, die Verfahren und Prozesse zur Analyse von Daten des eigenen Unternehmens bezeichnen.

Business Intelligence ist der Vorreiter von Advanced Analytics, wo man durch Datenanalysen vergangene Ereignisse untersucht. Man kann Business Intelligence in den Analyseverfahren Descriptive und Diagnostic Analytics einordnen, da Fragen wie „Wie viele Produkte habe ich zu welchem Preis in welcher Region verkauft?“ beantwortet werden können.

Im Gegensatz zu Business Intelligence wird mit Advanced Analytics Methoden der Blick gezielt in die Zukunft gerichtet¹. Dadurch können Prognosen über zukünftige Ereignisse aufgestellt werden. Fragen wie „Wie viele Produkte sollen wir produzieren?“ oder „Wann soll eine Wartung durchgeführt werden?“ können beantwortet werden. So ist Advanced Analytics unter den Predictive und Prescriptive Analytics Verfahren einzuordnen.

ETL, Big Data, Data Lake, Data Discovery, Data Exploration

ETL bedeutet Extract, Transform und Load und ist die Grundlage für die Befüllung von Data Warehouse und eine Basistechnologie zur Datenintegration. Zuerst werden die Daten extrahiert aus ein oder mehreren Quellen, dann transformiert in ein gewünschtes Zielformat und zuletzt an einen Zielort abgelegt.

Volume, Variety und Velocity sind die drei Dimensionen von Big Data. Was bedeutet, dass dieses Phänomen sich aus rasant (Velocity) steigender (Volume) Daten unterschiedlicher Art (Variety) ergibt. Daraus ergeben sich sowohl Herausforderungen wie das Speichern, Verwalten, als auch Chancen wie Möglichkeiten diese Daten auszuwerten.

In einem Data Lakewerden strukturierte und unstrukturierte Daten aus verschiedenen Datenquellen zusammengeführt mit dem Ziel, die verschiedenen, isolierten Datensilos eines Unternehmens aufzubrechen und die Daten an einen zentralen Ort zusammenzuführen. Auf diesen, dort gespeicherten Rohdaten können dann weitergehende, komplexe Datenanalysen durchgeführt werden.

Der Discovery Prozess im Bereich Data Discovery deckt die Erforschung und die Vorbereitung der Daten ab. Der Prozess kann mit einem initialen Qualitätscheck starten. Um eine erste Einschätzung zum Potential der Daten zu erhalten, kann ein simples Machine Learning Model angewandt werden. Der Discovery Prozess dient dazu erste Hypothese, Ideen oder Datenpotential ausfindig zu machen.

Als Weiterführung von Data Discovery wird in Data Exploration nach „tieferen“ Entdeckungen gesucht, welche zu einem ersten Prototyp führen können. Ziel ist es die gewünschte Lösung festzulegen, damit sie nicht vom Ziel abweicht.

 

FAZIT: Buzzword Dschungel KI – viele Wege führen zum Mehrwert aus Daten

Im Laufe der Zeit ist eine Vielzahl an Begrifflichkeiten rundum KI entstanden, die sich häufig in Teilen überlappen und auch nicht immer ganz 100% klar voneinander abgegrenzt werden können. Bei genauerer Betrachtung stellt man fest, dass sich hinter jedem Buzzword eine eigene, häufig sehr spezialisierte Wissensdomäne versteckt, die mit einem entsprechenden technologischen und methodischen Know-How verbunden ist. Sie alle haben aber gemein, dass sie versuchen, neue Informationen und damit einen Mehrwert aus Daten zu generieren. Mit diesem Beitrag haben wir versucht, die Abgrenzungen und auch die Überschneidungen deutlich zu machen.

Co-Autorin Christina Reiter


¹https://www.alexanderthamm.com/de/artikel/advanced-analytics-theorie-und-praxis/

 

Wollen Sie mehr Durchblick im KI Dschungel? Hier entlang …

Die Top 3 Business Intelligence Tools – eine Kurzgeschichte

Es waren einmal drei Hersteller für Business Intelligence Tools: Qlik, Tableau und Microsoft. In den Jahren 1993 bis 2013 brachten diese drei – jeweils mit zehn Jahren Abstand – Business Intelligence Tools auf den Markt. Den Anfang machte Qlik 1993 mit seinem Produkt QlikView. Darauf folgte Tableau im Jahre 2003 mit seinem gleichnamigen Produkt, und schließlich brachte Microsoft im Jahre 2013 ein modernes Business Intelligence Tool namens Power BI auf den Markt.

Ein Ziel hatten alle drei Hersteller beziehungsweise Tools gemeinsam: Die Datenexploration, -analyse und Visualisierung sollte so einfach wie möglich sein. Ein Otto-Normalverbraucher ohne spezielle IT oder Programmierkenntnisse sollte seine Daten selbst analysieren und visuell aufbereiten können, um einen maximalen Mehrwert aus den eigenen Daten ziehen zu können.

Der Aufstieg zu den Business Intelligence Leaders im magischen Quadranten von Gartner

Im magischen Quadranten von Gartner für Analytics und Business Intelligence Plattformen stiegen diese drei Hersteller über die Jahre hinweg zu den Leadern auf. Und während sich bis zum Jahr 2015 noch viele Anbieter an der Spitze tummelten, positionierte sich das Trio in den Jahren 2016 bis 2018 sogar als alleinige Leader für Analytics und Business Intelligence Plattformen.

Gartner Magic Quadrant for Analytics and Business Intelligence Platforms Gartner Magic Quadrant for Analytics and Business Intelligence Platforms

Alle drei Hersteller müssen sich dabei jährlich in den Disziplinen Analysis und Content Creation, Sharing of Findings, Infrastruktur, Data Management und übergreifende Plattform-Funktionen ihren Konkurrenten stellen.

Das Viz Wiz Funktionsprinzip

Aber wie funktioniert das ganze Wunderwerk denn nun? Ganz einfach, immer nach dem Viz Wiz Prinzip. Ein Visualization Wizzard bindet mit Hilfe einer Desktop-Applikation unterschiedlichste Datenquellen an. Das können Server, Datenbanken, Files, Online Content und vieles andere mehr sein. Diese Quellen verbindet er in der Applikation und kann so Dashboards mit den verschiedensten Diagrammen erstellen. Diese Dashboards werden dann auf einen Server oder direkt ins Web gepublisht, um so die generierten Informationen mit anderen User zu teilen. Das Ganze funktioniert natürlich auch auf mobilen Endgeräten.

Big 3 BI

Quelle: Eigene Darstellung

Dabei bieten QlikView, Power BI und Tableau eine echte Vielzahl an standardisierten Schnittstellen, um Datenquellen anzuzapfen. Hier stellt Qlik der Anzahl nach derzeit mit ganzen 115 Schnittstellen den Spitzenreiter, gefolgt von Microsoft mit 81 Schnittstellen und Tableau mit 54 Schnittstellen. Es lohnt sich also immer, doch nochmal einen Blick auf die Konnektoren zu werfen, die der jeweilige Hersteller anbietet.

 

Die Leader-Qualitäten von Tableau, Qlik und Power BI im Detail

Qlik bietet neben einer Vielzahl an Daten-Konnektoren auch eine Datenaufbereitung mittels eigener Skriptsprache an. Was ein äußerst mächtiges Werkzeug sein kann für denjenigen, der dieser Sprache auch mächtig ist. Für manchen nicht ganz so IT-affinen Anwender ist diese Art der Datenintegration allerdings schon wieder ein „Wunder der Natur“ an sich.

Qlik - Datenaufbereitung

Quelle: Eigener Screenshot aus Qlik Sense Desktop

 

Das neueste Wunderwerk von Tableau ist Tableau Prep. Hier bietet der Hersteller endlich eine ausgeprägte ETL Funktion an, mit deren Hilfe sich komplizierte Workflows zur Datenaufbereitung modellieren und mittels Tableau Server und der Tableau Prep Conductor Komponente auch automatisieren lassen.

Tableau Prep

Quelle: Eigener Screenshot eines Tableau Prep Workflows

Auch Microsoft greift mit Power BI gerne tief in die Trickkiste und bietet derzeit als einziger der drei Hersteller eine Streaming Funktion an, über die Dashboards mit Echtzeitdaten versorgt werden. Hier geschieht der Datenimport sozusagen wie von Zauberhand.

Qlik Sense ist ein Tool, das man als Prinzessin der Geschichte bezeichnen könnte. Es ist nutzerfreundlich, leicht zu erlernen und hübsch anzuschauen.

Quelle: Eigener Workflow aus Qlik Sense

Was das Visuelle anbelangt bietet Power BI schon deutlich mehr Funktionalität als Qlik Sense. Dennoch ist es leicht anzuwenden, da es einer ähnlichen Logik folgt wie andere Microsoft Produkte wie etwa Excel.

Während man sich in die Visualisierungslogik von Tableau erst eindenken muss, ist Tableau aber mit Sicherheit die Königin der Visualisierung. Fast alles liegt hier im Bereich des Möglichen, und der Phantasie sind kaum Grenzen gesetzt. Damit setzt Tableau der Visualisierung sozusagen die Krone auf.

Tableau Vis King

Quelle: Eigener Screenshot aus Tableau Desktop

„Wimmelt auf der Erde und mehret euch auf ihr“ (Genesis 9:7). Getreu diesem Bibelzitat besteht eine der wesentlichen Funktionen der drei Tools darin, dass erstellte Dashboards verteilt und Wissen vermehrt werden kann. Wenn man sein Dashboard teilen möchte, ist das am einfachsten mit Power BI zu bewerkstelligen. Einfach aus der Power BI Desktop Applikation heraus publishen und dann per Email-Sharing Funktion online freigeben – und schon wimmelt es von Klicks.

Power BI Publish

Quelle: Eigner Screenshot aus Power BI Desktop

Mit Qlik und Power BI ist das Erstellen von Dashboards kostenlos. Die Software muss einfach nur auf den PC heruntergeladen und installiert werden, schon kann das Dashboarding beginnen. Erst wenn es ans Publishen und Verteilen beziehungsweise Sharen in größerem Umfang geht, wird das Ganze kostenpflichtig. Tableau bietet (außer für Studenten) leider keine kostenlose Desktopapplikation an. Wer mit Tableau Dashboards auf dem Desktop erstellen möchte, muss sich auf klassischem Wege Lizenzen erwerben.

astrologer

 

Und die Moral von der Geschicht ….

Damit steht der Datenvisualisierung eigentlich nichts mehr im Wege. Jeder kann nun anfangen, das Gold in seinen Daten ganz einfach mit einem BI Tool seiner Wahl zu heben. Im Bedarfsfall natürlich immer mit freundlicher Unterstützung seines favorisierten Visualization Wizzards.

Gold in Daten

 

Und wenn sie nicht gestorben sind, dann visualisieren sie noch heute …

 

THE END.

 

 

 

 

 

 

Lust auf mehr Datenvisualisierung mit BI bekommen? Hier entlang …

Wie starte ich ein Machine Learning Projekt

Die Digitalisierung und Vernetzung unserer Systeme schreitet mit wachsender Dynamik fort. Die Folge: Fast täglich entstehen neue Möglichkeiten und Trends. Ein weiterer Effekt ist das steigende Volumen an Daten, die von Systemen und Menschen erzeugt und gesammelt werden. Auf dieser Basis hat sich neben Big Data auch die Künstliche Intelligenz zu einem Trend entwickelt, der immer mehr an Bedeutung gewinnt.

Wer im Web zum Thema Künstliche Intelligenz oder zu Machine Learning recherchiert, findet viele Suchergebnisse, Tendenz steigend. Die unten dargestellte Entwicklung der Google-Suchergebnisse zu „Maschinelles Lernen“ im Trend zeigt dies deutlich.

Google Trend – Maschinelles Lernen Machine Learning (ML) ist keine brandneue Technologie. Vielmehr wird auf diesem Gebiet schon seit einigen Jahren geforscht, Frameworks wie Tensorflow oder Keras sind mittlerweile aus dieser Forschung entstanden. In jüngster Zeit nimmt das Thema auch in der Praxis richtig Fahrt auf. Das liegt unter anderem an den folgenden Faktoren:

  • Die rasante Steigerung der Rechenleistung in den letzten Jahren.
  • Es liegen mittlerweile in vielen Bereichen ausreichend Daten vor, weil Unternehmen mehr Daten erfassen – aus Interaktionen mit Kunden und aus ihren Maschinen.
  • KI (Künstliche Intelligenz) hat sich im Consumer-Bereich schon deutlich bewährt, die Kunden erwarten jetzt von Unternehmen in jeder Hinsicht dieselben komfortablen digitalen Optionen.

Wenn wir vom Consumer-Bereich sprechen, sind Anwendungen gemeint, mit denen nahezu jeder von uns bereits Kontakt hatte. Durch Sprachassistenten auf Mobiletelefonen etwa oder durch Soundboxen zuhause wie Alexa oder Siri. Diese Systeme werden von Machine Learning Algorithmen gesteuert, um uns im Alltag zu unterstützen.

Machine Learning – was ist das eigentlich?

Betrachtet man das Thema Machine Learning sehr abstrahiert, könnte man sagen: Es geht darum, dass intelligente Computer oder Server selbstständig Sachverhalte erkennen und adäquate Maßnahmen daraus ableiten oder ausführen. Der Computer soll in die Lage versetzt werden, wie wir Menschen eigenständig und intelligent Daten/Ereignisse miteinander zu verknüpfen und daraus Lösungen für neue, noch nicht gelöste Probleme zu generieren.

Aber wie soll das ein Computer machen?

Basis ist eine Software, die mit selbstlernenden Algorithmen ausgestattet ist und damit versucht, Muster in Daten zu erkennen.  Diese Muster nutzt das Programm für weitere Entscheidungen. Die Grundlage müssen wir an dieser Stelle jedoch der Software übermitteln, sie geht sozusagen bei uns in die Schule. Mittels Daten bringen wir der Software bei, welche Muster es gibt und welche möglichen Maßnahmen davon ausgehend durchgeführt werden können. Darauf bauen die selbstlernenden Algorithmen auf und entwickeln neue Muster.

Diese recht abstrahierte Beschreibung verdeutlicht schon sehr gut, was die wesentliche Grundlage für Machine Learning ist: Daten, Daten und nochmals Daten. Dies ist mitunter auch einer der wesentlichen Unterschiede zu anderen Projekten im IT-Bereich. In ML-Projekten müssen wir zu Beginn einen sehr klaren Fokus auf Daten legen und versuchen, diese bestmöglich zu verarbeiten. Je besser wir darin sind, desto besser werden unsere Ergebnisse sein.

Sehr häufig wird der Aufwand unterschätzt, der in die Analyse der Daten und in die Auswahl der entsprechenden Algorithmen gesteckt werden muss. Aus diesem Grund gibt es mittlerweile auch Berufe, die sich ausschließlich mit diesem Thema befassen. So fühlt sich der Data Engineer im Umfeld von Daten zuhause und ist kompetent darin, Daten zu analysieren und entsprechend aufzubereiten. Der Data Scientist hingegen ist für die Auswahl der passenden Algorithmen zuständig: Er bringt Daten, Use Case und Frameworks zusammen und erstellt eine Architektur, die anschließend von Softwareentwicklern umgesetzt wird.

Das nachfolgende Schaubild fasst die beiden Berufsbilder nochmals zusammen:

Abbildung: doubleSlash Net-Business – Profile Data Scientist und Data Engineer

Wo gehört Machine Learning hin und was gibt es noch?

Künstliche Intelligenz (KI):

Das Forschungsgebiet der Künstlichen Intelligenz (KI) befasst sich allgemein mit dem Transfer menschlicher Fähigkeiten auf Maschinen. Hierbei sollen Maschinen unter anderem Aufgaben lösen, die bislang bestimmte kognitive Fähigkeiten des Menschen voraussetzen. Darunter zählt beispielsweise das Erkennen von Sprache, Text und Bildinhalten. Künstliche Intelligenz wird oft als Oberbegriff für Teildisziplinen wie Maschine Learning und Deep Learning genutzt.

Machine Learning (ML):

Hier ermöglicht die Bereitstellung von Daten, dass eine Maschine neue Sachverhalte und eine adäquate Reaktion anhand von Beispielfällen erlernt. Unterschieden wird hierbei zwischen Supervised Machine Learning und Unsupervised Machine Learning. Beim Supervised Machine Learning wird dem Algorithmus während der Lernphase die Bedeutung der bereitgestellten Daten, genauer: die Antwort auf die ihm gestellte konkrete Frage mitgeteilt. Nach der Lernphase kann der Algorithmus dann das Erlernte auf neue, unbekannte Daten übertragen. Unsupervised Machine Learning kommt ohne diese Hilfestellung aus. Der Algorithmus erkennt selbständig wichtige Muster in den Daten und erlernt allgemeine Vorschriften beziehungsweise Regeln unabhängig von einer konkreten Fragestellung.

Deep Learning (DL):

Deep Learning ermöglicht es Maschinen, über die ihnen bereitgestellten Daten hinaus Fähigkeiten zu erlernen. Dabei muss die Maschine beziehungsweise die Software beispielsweise Daten analysieren und bewerten, um daraus logische Schlüsse zu ziehen. Dadurch lassen sich effizientere Lösungswege ermitteln, aus Fehlern kann gelernt werden. Die Anzahl und Qualität der bereitgestellten Daten beeinflusst hierbei stark den Erfolg des Lernvorgangs.

Wie läuft ein Machine Learning Projekt bei doubleSlash ab?

Machine Learning Projekte laufen bei doubleSlash in einem standardisierten Prozess ab, der eine kontinuierliche Verbesserung des entwickelten Machine Learning Modells anstrebt.

Im initialen Discovery Process liegt der Fokus darauf, ein tiefgehendes Verständnis für die vorliegende Problemstellung und die bereitgestellten Daten zu erlangen. Es ist auch bei Machine Learning essenziell, dass man sich über die Problemstellung ausreichend Gedanken macht und daraus Ziele ableitet. Neben der Problemstellung ist es wie erwähnt auch sehr wichtig, die zu verarbeitenden Daten zu verstehen. Dieses Verständnis hat einen wesentlichen Einfluss auf den Erfolg oder Misserfolg eines Machine Learning Projekts. Bei doubleSlash erfolgt beides durch einen Proof of Concept (PoC). Das Ziel des PoC ist es, über die Fortführung des Prozesses auf Basis dieses Verständnisses fundiert zu entscheiden.

Ist die Machbarkeit mittels eines PoC nachgewiesen, folgt im nächsten Schritt die Datenintegration. Das System wird an eine oder mehrere Datenquellen wie beispielsweise Datenbanken oder Maschinen angebunden. Ehe die gesammelten Daten verarbeitet werden können, müssen diese in der Regel eine Datenaufbereitung durchlaufen – zum Beispiel durch Normalisierung, Filterung, Partitionierung und Transformierung.

Um die Komplexität des entstehenden Machine Learning Modells zu verringern, werden die Eingabedaten im Rahmen der Modellimplementierung auf bestimmte Zielattribute beziehungsweise repräsentative Teilmengen reduziert. Das hiernach trainierte Modell wird anschließend validiert, indem Vorhersagen, die das Modell getroffen hat, mit bereits existierenden Daten verglichen werden. Abweichungen zwischen Vorhersage und Realität lassen sich durch das Anpassen unterschiedlicher Parameter und erneutes Training nach und nach minimieren.

Ist die Qualität des Modells zufriedenstellend, fungieren dessen Vorhersagen als Grundlage unternehmerischer Entscheidungen. Das Modell kann in eine produktiv einsetzbare Lösung überführt werden.

Zu beachten: Die bereitgestellten Daten zum Beispiel können sich stets verändern. Eine Überwachung der Performance im produktiven Betrieb ist deshalb unverzichtbar, um das Modell gegebenenfalls rechtzeitig an neue Gegebenheiten anzupassen. Hier schließt sich der Kreis und eine neue Iteration beginnt.

Die nachfolgende Grafik visualisiert dieses angepasste Vorgehensmodell.

Fazit

Machine Learning bietet viel Potenzial, um in Unternehmen bestehende Prozesse zu optimieren und neue Prozesse zu entwickeln. Dieses Potenzial ist keinesfalls auf ein Unternehmenssegment begrenzt, vielmehr lässt es sich in allen Bereichen eines Unternehmens integrieren. Dadurch ergibt sich eine Vielzahl an Anwendungsfällen für Machine Learning. Bei der Planung von Machine Learning Projekten sollte allerdings wie oben beschrieben ein starker Fokus auf die Daten gelegt werden, denn diese haben einen entscheidenden Einfluss auf den Erfolg oder Misserfolg eines ML-Projekts. Zu den Daten kommen die Kenntnisse und Kompetenzen des Projektteams. Beide zusammen sind die für den Verlauf und damit auch den Erfolg des Projekts zentralen Faktoren.

Wollen Sie mehr erfahren oder das angepasste Vorgehensmodell für Ihr Machine Learning Projekt nutzen?

 

Der Bias-Effekt im Machine Learning

Künstliche Intelligenz feierte in den letzten Jahren einen Erfolg nach dem anderen: selbstfahrende Autos oder das Entsperren von Smartphones durch Gesichtserkennung waren zum Beispiel noch vor wenigen Jahren nur in Science-Fiction-Filmen denkbar. All diese Erfolge werden durch „Machine Learning“-Methoden ermöglicht. Diese mathematischen Methoden vereinen zwei Kernaspekte:

  1. Selbstverbesserung durch Lernen: Durch tausendfaches, gezieltes Ausprobieren wird nach der besten mathematischen Gleichung zwischen Eingangsdaten und Modellausgabe gesucht. Die gefundene und angepasste Gleichung wird dann als „Modell“ bezeichnet.
  2. Black Box: Während ein Ingenieur häufig mathematische Zusammenhänge auf physikalischen Prinzipien wie zum Beispiel dem Satz der Energieerhaltung aufbaut, haben Machine-Learning-Modelle diesen Anspruch nicht unbedingt. Hier ist häufig nicht genau nachvollziehbar warum ein Modell bestimmte Dinge tut und andere wiederum nicht. Genutzt wird, was funktioniert.

Mehr

Mit Machine Learning das Potenzial aus Daten nutzen

Big Data ist Realität, aber daraus Wissen zu generieren ist nach wie vor eine Herausforderung. Inzwischen ist aber klar: Gewinner des digitalen Wandels wird sein, wer mit Daten Wertschöpfung betreiben kann. Durch den gezielten Einsatz von Machine Learning Verfahren lassen sich aus Daten neue Erkenntnisse gewinnen und Vorhersagen treffen. So können Unternehmen von Marketing über Vertrieb bis zum After Sales ihre Geschäftsprozesse optimieren oder gar völlig neu gestalten.Mehr

Was sind künstliche Neuronale Netze: Ein praktischer Einstieg

In den letzten Jahren wurden mit Hilfe von künstlichen neuronalen Netzen bisher unmöglich geglaubte Fortschritte in Bereichen des maschinellen Lernens erreicht. Ein Beispiel hierfür ist Alphabets künstliche Spielintelligenz für das vor allem in Asien sehr beliebte und hochkomplexe Spiel Go. Das „AlphaGo“ genannte Programm nutzt ebenfalls neuronale Netze und besiegte 2016 zum ersten Mal einen menschlichen Spieler des höchsten Rangs.Mehr