Viele Dinge würden sich durch die Vorhersage der Zukunft besser planen lassen. Besonders für Unternehmen ist dies eine sehr verlockende Vorstellung. Mit Predictive Analytics ist dies gewissermaßen kein Wunschdenken mehr, sondern zumindest begrenzt in die Realität umsetzbar.
Doch was ist Predictive Analytics genau? Wie funktioniert das Ganze? Und in welchen Bereichen kann ich es wirklich erfolgversprechend nutzen? Über all diese Fragen versuchen wir euch heute in diesem Blog-Eintrag einen Überblick zu verschaffen.
Was ist Predictive Analytics?
Predictive Analytics ist eine Analysemethode, die historische Daten dazu verwendet, um Voraussagen darüber zu treffen, wie sich eine Situation in Zukunft entwickeln wird oder kann. Hierbei werden auf Basis dieser historischen Daten und unter Anwendung verschiedener statistischer Analysetechniken mathematische, prädiktive Modelle erstellt, die z.B. einen numerischen Wert für die Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses berechnen. Diese Modelle werden im Folgeschritt auf aktuelle Unternehmensdaten angewendet, um Vorhersagen über Aktivitäten, Verhalten und Trends zu machen und somit Unternehmensergebnisse in Zukunft zu optimieren.
Die Methode ist keineswegs neu, gewinnt aber immer mehr an Beliebtheit, da im Zuge der Digitalisierung immer mehr Unternehmensdaten anfallen und zur Verfügung stehen. Darüber hinaus wurden in genau damit assoziierten Bereichen wie Big Data und Machine Learning große Fortschritte verzeichnet. Diese Daten wollen Unternehmen natürlich intelligent nutzen, um komplexe wirtschaftliche Zusammenhänge vorhersagen und entsprechend bessere Entscheidungen treffen zu können. So erhofft man sich einen Wettbewerbsvorteil zu verschaffen.
Predictive Analytics: Einordnung des Begriffs
Predictive Analytics wird oft in einem Zuge mit Business Intelligence, Business Analytics, Big Data und Data Mining verwendet. Doch was bedeuten all diese Begriffe und wie hängen sie zusammen?
Predictive Analytics ist eine Teilmenge von Business Intelligence (BI) und Business Analytics (BA), welche oft synonym verwendet werden. Streng genommen ist BA allerdings eine fortschrittlichere Evolutionsstufe der BI. Mit BI werden oft alle Formen der Datenanalyse in Unternehmen bezeichnet. Unternehmen wird mit BI ermöglicht, Fragen zur aktuellen wirtschaftlichen Situation zu beantworten, indem Unternehmensdaten systematisch gesammelt, ausgewertet und dargestellt werden, um so bessere operative oder strategische Entscheidungen zu treffen.
Und was hat das mit Big Data und Data Mining zu tun?
Zusammengefasst beschreibt Big Data lediglich das riesen Meer an strukturierten und unstrukturierten Unternehmensdaten, die anfallen und die es gilt sich zu Nutzen zu machen. Big Data liefert also große Datenmengen und ggf. auch die technischen Plattformen diese effizient weiterzuverarbeiten. Es liefert also die Grundlage für Predictive Analytics. Auf der anderen Seite beinhaltet Data Mining, den eigentlichen Gewinn von Erkenntnissen aus den vorliegenden Daten und wird oft synonym mit Predictive Analytics verwendet. Data Mining hat also das Ziel, aus großen Datenmengen mithilfe statistischer Methoden und unter Anwendung von künstlicher Intelligenz (KI) Muster auszulesen und Zusammenhänge zu erkennen, um schlussendlich Predictive Analytics möglich zu machen.
Man könnte das Ganze auch wie folgt veranschaulichen: Um ein leckeres Gericht zu kochen sind mehrere Dinge notwendig. Zum einen braucht man die richtigen Utensilien, wie Zutaten (Daten) und die dazugehörige Küche (geeignete technische Plattform). Ohne das richtige Rezept (Data Mining), würde aber mit hoher Wahrscheinlichkeit ein ungenießbares Gericht dabei herauskommen. Mit dem richtigen Rezept jedoch, können die Zutaten so genutzt werden, dass eine vorzügliche Mahlzeit das Endresultat wäre.
Methoden der Predictive Analytics
Wie bereits angedeutet, gibt es mehrere Methoden, um Predictive Analytics erfolgreich ein- und umzusetzen. Machine Learning Techniken werden hier angewandt, um wertvolle Muster in Daten zu finden und Modelle zu erstellen, die wiederum zukünftige Ergebnisse vorhersagen. Im Folgenden werden einige dieser Techniken aufgelistet und kurz erläutert.
1. Regressionsanalyse
Die Regressionsanalyse ist wohl die älteste und bekannteste Methode der prädiktiven Analyse. Mithilfe einer Regressionsanalyse wird der Zusammenhang zwischen einer abhängigen (z.B. Kaufentscheidung ja/nein) und einer oder mehreren unabhängigen Variablen (z.B. Alter oder erhoffter Nutzen eines Produkts) ermittelt. Oft wird hierbei zwischen logistischer und linearer Regression unterschieden. Der wesentliche Unterschied hierbei besteht in der Qualität der abhängigen Variablen. Während in der linearen Regressionsanalyse, die abhängige Variable eine kontinuierliche Variable ist (z.B. Alter, Größe), handelt es sich in der logistischen Regression um eine kategorische Variable (z.B. Geschlecht).
2. Zeitreihenmodelle
Zeitreihenmodelle sind eine spezielle Form der Regressionsanalyse. Hierbei werden die Daten, wie es der Name schon vermuten lässt, über einen bestimmten Zeitraum betrachtet, weshalb sie besonders geeignet für Prognosen sind.
3. Entscheidungsbäume
Entscheidungsbäume sind eine definierte Darstellung von Entscheidungsregeln und werden immer in Form eines oder auch mehreren Baumdiagrammen dargestellt. Der Entscheidungsbaum besteht aus mehreren Knoten, die die eingehenden Daten in zwei oder mehrere Untergruppen aufteilen. Jeder dieser Knotenpunkte ist durch eine Entscheidungsregel in Form einer wenn-dann Bedingung gekennzeichnet, durch die neue Eingangsdaten geprüft und unterschieden werden. Gekennzeichnet ist der Entscheidungsbaum durch die schrittweise immer kleiner werdende Aufteilung der Ausgangsgesamtheit an Daten. Am Ende müssen alle Datensätze in einem der Endknoten enden, das bedeutet sie müssen durch das Durchlaufen der verschiedenen Knoten und wenn-dann Regeln schlussendlich einem Knotenpunkt klar zuordenbar sein.
4. Clusteranalyse
Mithilfe der Clusteranalyse versucht man riesige Datenmengen in kleinere homogene Gruppen zu unterteilen. Dabei werden die Gruppen aus Erscheinungen mit gleichen Eigenschaften gebildet. Zwischen den Gruppen sollten die Eigenschaften sich möglichst in hohem Maße unterscheiden.
Oft wird hierfür ein Clustering Algorithmus gewählt, der „k-Nearest Neighbour“ genannt wird. Das bedeutet im Prinzip nichts anderes als für jeden neuen betrachteten Fall oder Datenpunkt die nächsten Nachbarn (naheliegenden Punkte) heranzuziehen, um zu entscheiden, welcher Gruppe der neue Datenpunkt zugeordnet wird. Die Gruppe, die unter den k Nachbarn am häufigsten vorkommt, wird die Gruppe, zu der der neue Datenpunkt gehört. Der Wert k beschreibt hierbei nur die Anzahl der Referenzdatenpunkte, die bei der Beurteilung in Betracht gezogen werden. Diese sollte, wie so oft, weder zu klein noch zu groß gewählt werden.
5. Neuronale Netze
Neuronale Netze sind die Verknüpfung künstlicher Neuronen, die dem menschlichen Gehirn nachempfunden sind. Ein Neuronales Netz besteht grundsätzlich aus mindestens zwei Schichten. Die erste Schicht ist die Eingangsschicht. Sie besteht aus den Neuronen, die die Inputs aufnehmen. Die zweite Schicht ist die Ausgangsschicht. Dazwischen gibt es je nach Ausführung eine oder auch gleich mehrere versteckte Schichten, die sogenannten „hidden layers“. Die enthaltenen Neuronen geben mit ihren Aktivitätsleveln die Ergebnisse des Neuronalen Netzes an. Entsprechend spielen neben den Neuronen besonders die Verbindung zwischen diesen einzelnen Neuronen eine sehr wichtige Rolle, da diese gewichtet werden. Es wird ihnen also eine verschiedene Bedeutung zugemessen. Hierbei unterscheidet man zwischen
- gar keiner Gewichtung, das bedeutet die Neuronen haben gar keinen Einfluss aufeinander.
- einer positiven Gewichtung, das bedeutet die Neuronen haben einen positiven Einfluss aufeinander. Steigt der Wert des einen verstärkt es den Wert des anderen.
- einer negativen Gewichtung, das bedeutet die Neuronen haben einen negativen Einfluss aufeinander. Steigt der Wert des einen, verringert dies den Wert des anderen.
6. Naive Bayes Verfahren
Naives Bayes Verfahren beruhen auf der bekannten Bayes-Formel für bedingte Wahrscheinlichkeiten. Hierbei wird für jede Klasse die Wahrscheinlichkeit geschätzt, mit der ein Objekt zu dieser spezifischen Klasse gehört. Im Folgeschritt wird die Klasse mit der höchsten Wahrscheinlichkeit für die Klassenprognose des Objekts gewählt. Bei diesem Ansatz wird davon ausgegangen, dass Objekteigenschaften innerhalb der Klassen unabhängig voneinander auftreten.
7. Support Vector Machines (SVM)
SVMs sind eine nicht lineare Methode zur Datenanalyse. Das SVM Modell besteht aus einer bestimmten Menge an Objekten in einem Raum, die so gruppiert sind, dass sie klar voneinander durch eine Trennlinie abgetrennt sind. Ziel des Algorithmus ist es so zu gruppieren, dass der Abstand einen möglichsten großen Abstand zwischen den Gruppen aufweist. Neu dazukommende Objekte werden so in das bestehende Model eingeordnet, indem bestimmt wird zu welcher Gruppe sie zugeordnet werden können.
Anwendungsbeispiele von Predictive Analytics
Predictive Analytics findet in vielen Bereichen Anwendung. Besonders in Bereichen wie Marketing, im Finanz- und Versicherungswesen oder im Einzelhandel kommt Predictive Analytics häufig zum Einsatz. Aber auch Branchen wie das Gesundheitswesen setzen vermehrt auf diese Art der Datenauswertung.
Ein konkretes Geschäftsanwendungsbeispiel ist
- z.B. die Analyse von Kundenverhalten zur Bestimmung des Kaufverhaltens. So kann auch Online-Werbung gezielter ausgerichtet werden.
- z.B. die Vorhersage von Strompreisen und -bedarfen in der Energie Branche.
- z.B. die Erkennung bevorstehender Teileausfälle von Industrieanlagen. Dieses Feld nennt man auch Predictive Maintenance. Hier kommen Anwendungen für die Zustandsüberwachung und vorrausschauende Instandhaltung zum Einsatz. So können Ausfallzeiten reduziert und Verschwendung minimiert werden was ultimativ zu einer enormen Kostenreduktion für Firmen führt.
- z.B. auch in der Medizin zu finden. Hier können durch die Verwendung von Mustererkennungsalgorithmen spezifische Krankheitsmuster frühzeitig erkannt werden. Auf der anderen Seite könnten Patienten identifiziert werden, bei denen ein Risiko besteht, dass bestimmte Krankheiten sich entwickeln.
- z.B. die Entwicklung von Kreditrisikomodellen im Finanzsektor, um Kreditrisiken vorherzusagen.
- z.B. das Analysieren von Sensordaten von vernetzten Fahrzeugen in der Automobilbranche, um so Fahrerassistens-Algorhithmen zu erstellen.
Ein typischer Predictive Analytics Prozess auf einen Blick
Grundsätzlich lässt sich der Predicitve Analytics Prozess oder Workflow in eine grobe Struktur und verschiedene Unterpunkte unterteilen, die typischerweise in einer gewissen Reihenfolge durchgeführt werden.
- Data Access and Exploration: Das Importieren von Daten aus verschiedenen Datenquellen (z.B. Webarchiven, Datenbanken usw.)
- Preproccesing of Data: Die Bereinigung der Daten durch das systematische Entfernen von Ausreißern und das Kombinieren der verschiedenen Datenquellen (Data Aggregation)
- Development of Predictive Model:
- Entwicklung eines genauen prädiktiven Models auf Basis der aggregierten Daten unter Verwendung verschiedener statistischer Verfahren und Predictive Analytics Methoden
- Testen des Models mit einem Testdatensatz, um dessen Genauigkeit zu überprüfen und zu gewährleisten
- Integrate Analytics with Systems: Integrierung des besten Models in einer Produktionsumgebung
Fazit
Grundsätzlich ist Predictive Analytics ein kontinuierlicher, iterativer Prozess, dessen Einsatz zu immer besseren bzw. genaueren Vorhersagen führt – vorausgesetzt die notwendige Datengrundlage ist gegeben. Daher ist es eine vielversprechende Art und Weise, Daten gewinnbringend für Unternehmen auszuwerten, um daraus Prozesse abzuleiten und Entscheidungen zu treffen, die zu einer zukünftigen Unternehmensoptimierung führen.
Haben wir Ihr Interesse an Predictive Analytics geweckt? Möchten Sie Predictive Analytics zukünftig gerne in Ihre Unternehmensprozesse integrieren? Wir können Ihnen dabei helfen. Kontaktieren Sie uns einfach per Mail an info@pacemaker.ai