Einer Studie von Gartner zufolge werden tatsächlich mehr als die Hälfte aller Data Science Projekte nicht vollständig operationalisiert. In diesem Schritt liegt jedoch der Schlüssel, um Daten langfristig gewinnbringend einzusetzen und den eigentlichen Mehrwert von Data Science Projekten zu erreichen. Damit Sie zukünftig nicht in dieselbe Falle tappen, wollen wir mit diesem Artikel aufzeigen, was es mit der Operationalisierung auf sich hat, die Unterschiede zu einem Data Science Projekt hervorheben und Ihnen anhand des Data Science Operationalisierungszykluses zeigen, worauf es zu achten gilt und welche Fragen vorab geklärt werden müssen.
Was versteht man unter Operationalisierung?
Definition: Die Operationalisierung von Data Science Projekten beschreibt die dauerhafte Integration der Data Science bzw. Analyseergebnisse in die IT-Infrastruktur und operativen Geschäftsprozesse eines Unternehmens. Die Operationalisierung bezieht sich damit auf die stetige Bereitstellung von Data Science Lösungen für den Endnutzer oder wie wir bei pacemaker sagen, den Weg vom Datenprojekt zum Datenprodukt.
Um ein besseres Verständnis dafür zu bekommen, wie Datenprodukte aussehen können, hier ein paar Beispiele aus unserer eigenen Praxis.
Forecasting: Entwicklung einer Forecasting Software für einen Logistikdienstleister für den Onlinehandel eines großen Modehändlers, um Bestellungen und Retouren vorherzusagen und so die E-Commerce Logistik optimal zu planen.
P&C Bestell- und Retourenprognose ➞
Product Insights: Entwicklung eines interaktiven Dashboards zur kontinuierlichen Auswertung von Kundenfeedback und Gerätedaten für eine 360° Sicht auf Produkt- und Servicequalität für einen Hersteller und Vertreiber von Haushaltselektronik.
Dynamische Routenoptimierung: Entwicklung einer dynamischen Tourenplanungssoftware für einen Pharmalogistiker, um durch eine optimale Routenplanung Zeit- und Kosten zu sparen und eine schnellere Versorgung von Krankenhäusern und Patienten zu gewährleisten.
Datenprodukte können also ganz unterschiedlich sein und in diversen Anwendungsgebieten echten Mehrwert schaffen. Dabei ist wichtig zu beachten, dass es nicht immer darum geht, alle Anwendungsfälle in ein Datenprodukt zu überführen. Manche Data Science Projekte dienen beispielsweise rein prinzipiell nur als einmalige Entscheidungsgrundlage und bedürfen keines dauerhaft betriebenen Datenprodukts.
Was ist der Unterschied zwischen einem Data Science Projekt und einem Operationalisierungsprojekt?
Ein Data Science Projekt und ein Operationalisierungsprojekt sind tatsächlich zwei verschiedene Dinge mit unterschiedlichen Anforderungen und Zielen. Eine Tatsache, die vielen Endnutzern oftmals nicht bewusst ist. Doch worin unterscheiden sich die beiden genau?
Während der Fokus eines Data Science Projekts zumeist auf der Machbarkeitsprüfung bestimmter Use Cases, dem sogenannten Proof of Concept (POC), liegt und die Entwicklung von Analysemodellen im Vordergrund steht, geht es bei der Operationalisierung darum, Data Science Softwarelösungen zu entwickeln, welche die Analyseergebnisse dauerhaft in den Geschäftsalltag integrieren. Der Operationalisierungsprozess knüpft daher da an, wo das Data Science Projekt aufhört. An dieser Stelle wird aus einem erfolgreichen Data Science Projekt daher ein Softwareentwicklungsprojekt. Ziel ist es, eine Softwarelösung zu entwickeln, die den Anforderungen des täglichen Geschäftsalltags gerecht wird. Es gilt daher zu überprüfen, ob die im Rahmen des POC getroffenen Annahmen auch im Produktivumfeld und unter Verwendung von stetig aktualisierten Daten zutreffen. Man spricht in dem Zusammenhang auch von einem sogenannten Proof of Scale (POS).
Die nachstehende Grafik gibt einen Überblick über die Hauptunterschiede der zugrunde liegenden Fragestellungen, die es im Rahmen der beiden Projekte zu überprüfen gilt.
Die erfolgreiche Implementierung von Datenprodukten bedarf, ähnlich dem CRISP-DM Vorgehen für Data Science Projekte, ebenso eines systematischen Vorgehens. Tatsächlich ist das Fehlen einer systematischen Operationalisierungsmethodik einer der Hauptscheitergründe für eine erfolgreiche Produktifizierung, so Gartner.
Wie verläuft ein erfolgreicher Operationalisierungsprozess?
Der Operationalisierungsprozess ist ein fortlaufender Kreislauf. Die nachstehende Grafik gibt einen Überblick über den gesamten Prozess. Die einzelnen Schritte werden im Folgenden kurz näher erläutert.
Model Activation markiert den Startschuss und Übergang in den Operationalisierungszyklus. Hier erfolgt die sprichwörtliche Übergabe der Ergebnisse eines Data Science Projekts in Form eines „produktionsreifen“ Modells. Heißt die Data Scientisten übergeben nun die Ergebnisse ihrer Arbeit an das Team der Software Engineers.
Model Deployment & Application Integration dienen der Sicherstellung der Lauffähigkeit und Integration im produktiven Umfeld. Dieser Schritt umfasst Entscheidung zum Hosting (ob On-Premises, in der Cloud oder eine hybride Lösung) sowie der Definition der Datenbereitstellung und der Art der Integration der Analyseergebnisse. Bei Letzterem reichen die Möglichkeiten von der Integration in bestehende Systeme bis hin zu einer eigens entwickelten Anwendung. Es gilt effiziente Datenpipelines aufzubauen, die den einwandfreien Datenfluss gewährleisten.
Production Audit & Model Behavior dienen dem technischen Monitoring der Performance und der Data Science Ergebnisse. In diesem Schritt werden daher Überwachungs- und Benachrichtigungsmechanismen implementiert, die systematisch auf Abweichungen oder sonstige Besonderheiten aufmerksam machen. Dies kann durch Ad-hoc Analysen oder durch eine dauerhafte Aufzeichnung und Überwachung vordefinierter Metriken, wie z. B. Reaktions- und Laufzeit oder die Genauigkeit der Analyseresultate erfolgen. So kann zum Beispiel eine Benachrichtigung erfolgen, sobald ein bestimmter Schwellenwert eines definierten Qualitätsmerkmals unterschritten wird. All diese Maßnahmen dienen dazu, das Vertrauen in die Lösung zu gewährleisten und sicherzustellen, dass ein kontinuierlicher Mehrwert erreicht wird.
KPI Validation dient als Verbindungsstelle zwischen dem Data Science und Operationalisierungszyklus. Hier dreht sich alles um den Abgleich der Anforderungen an die Lösung mit den tatsächlichen Ergebnissen aus Anwender und Business Perspektive. Diese KPIs wurden bereits zu Beginn des Data Science Projekts im Rahmen des Business Understanding definiert. Dieser Schritt ist wichtig, denn oberstes Gebot ist es, sicherzustellen, dass ein kontinuierlicher Geschäftswert erzielt wird.
Werden nicht die gewünschten Ergebnisse erzielt, kann dies auf verschiedene Gründe zurückzuführen sein. Diese können ein erneutes Durchlaufen des Data Science Projekt-Kreislaufes bedingen. Je nach Ursache wird entschieden, bei welchem Schritt angesetzt werden muss.
Business drift: Das Modell liefert nicht den gewünschten Geschäftsmehrwert. Dies kann unter anderem auch auf veränderte Marktbedingungen zurückzuführen sein, die sich nicht unbedingt direkt auf die Daten auswirken. In diesem Fall kann es ratsam sein, die ursprünglich definierten KPIs neu zu bewerten.
Data drift: Eine Veränderung der Daten, die zur Erstellung des Modells verwendet wurden und den Daten, die tatsächlich im Produktivbetrieb verwendet werden, kann dazu führen, dass die Modelle nicht die gewünschte Leistung erbringen. Ändern sich die zugrunde liegenden Daten, kann es notwendig sein, zurück bis zur Datenaufnahme zu gehen. Eine Veränderung der Daten kann zudem auf Abweichungen in der Datenqualität zurückzuführen sein. Während bei einem Data Science Projekt die Daten im Rahmen der Data Preparation händisch gesäubert werden und auf jeden Ausnahmefall Rücksicht genommen werden kann, erfolgt die Datenaufbereitung bei einem Datenprodukt weitestgehend automatisiert. Probleme in der Datenqualität machen sich daher gerade in der Operationalisierung umso schwerwiegender bemerkbar. So kann es passieren, dass der Prozess zurück bis zur erneuten Datenaufbereitung gehen muss. Um dies zu vermeiden, ist es wichtig, entsprechende Maßnahmen zur dauerhaften Sicherstellung der Datenqualität im Voraus zu treffen.
Concept Drift: Abweichungen bei der Modellgüte führen zu einer verminderten Modellleistung. Machen sich radikale Veränderungen der in den Daten überwachten Muster bemerkbar, kann es notwendig sein, zurück zum Modelling Schritt zu gehen und die Analysemodelle händisch zu überarbeiten.
Wie die Ausführungen zeigen, ist die Operationalisierung also ein dauerhaftes Projekt. Nach einem initialen Set-up geht das entwickelte Datenprodukt in einen Regelbetrieb über, der einer kontinuierlichen Wartung und Support unterliegt. Hierfür haben sich sogenannte Software as a Service (SaaS) Modelle bewährt.
Wird dieser systematische Prozess befolgt, wird eine große Hürde der Operationalisierung gemeistert. Dennoch ist und bleibt die Produktifizierung ein komplexer Prozess mit ganz unterschiedlichen Herausforderungen, sowohl technischer als auch organisatorischer Natur. Abschließend wollen wir daher einen Blick auf die Hauptgründe werfen, die für das Scheitern verantwortlich sind.
Warum scheitern so viele Data Science Projekte an der Operationalisierung?
Auch wenn die Gründe unterschiedlich sein können, kristallisieren sich die folgenden jedoch als maßgeblich heraus:
- Diskrepanz zwischen Trainings- und Produktionsdaten.
- Schlechte Integration der Lösung in Geschäftsprozesse oder Anwendung.
- Misstrauen und Skepsis gegenüber Nutzung der Lösung.
- Falsche Zusammenstellung des Teams für die Operationalisierung.
Damit Sie nicht in die gleichen Fallen tappen und die Implementierung Ihres Datenprodukts gelingt, gibt es einige Fragen, die vorab geklärt werden sollten. Dazu gehören unter anderem die folgenden:
- Von wem werden die Analyseergebnisse wie im Alltag genutzt? Heißt, wie müssen die Analyseergebnisse bereitgestellt werden, um den Endnutzer bestmöglich zu unterstützen?
- Wie und wie häufig erfolgt die Datenübermittlung? Und wie oft ist eine Aktualisierung der Ergebnisse notwendig? Heißt, wie wird ein einwandfreier Datenfluss, sowohl auf Seiten des Dateninputs als auch Datenoutputs, gewährleistet?
- Wie wird sichergestellt, dass die Analysemodelle optimal funktionieren? Heißt, wie wird die Qualität der Modelle überwacht und wie wird auf Abweichungen und Verschlechterungen reagiert?
Zur erfolgreichen Umsetzung bedarf es dem Zusammenspiel eines interdisziplinären Teams. Zusätzlich zu den Fachabteilungen sollte auf Seite des Unternehmens ein Vertreter der IT-Abteilung involviert werden, denn er oder sie kennt die IT-Infrastruktur, in welche das Datenprodukt integriert werden soll, so gut wie kein anderer.
Fazit
Der Schlüssel, um Daten langfristig gewinnbringend einzusetzen und den eigentlichen Mehrwert von Data Science Projekten zu erreichen, liegt in der Operationalisierung. Gelingt dieser Schritt, lassen sich die Produktivität steigern, Kosten senken, Umsätze steigern und letztlich der Profit erhöhen. Daher ist es wichtig, bereits zu Beginn eines Data Science Projekts Use Cases hinsichtlich ihrer Produktifizierbarkeit auszuwählen und sodann ein systematisches Vorgehen zu etablieren, um diesen in den dauerhaften Einsatz zu überführen. So profitieren Sie schlussendlich nicht nur von einem höheren ROI Ihrer Data Science Initiativen, sondern erhöhen auch die Akzeptanz für diese Themen im eigenen Unternehmen.
Wir entwickeln Ihr Datenprodukt
Als Data Science Softwareexperten sind wir bei pacemaker Ihr Ansprechpartner für die Realisierung Ihres Datenprojekts und die Entwicklung Ihres individuellen Datenprodukts. Wir begleiten Sie von der Idee bis hin zur nahtlosen Integration in Ihre IT-Infrastruktur und operativen Geschäftsprozesse.