Seitdem die Harvard Business Review* den Data Scientist zum „sexiest job” des 21. Jahrhunderts gekürt hat, werden diese oftmals als Universalgenies gehandelt. Damit aus Daten wirklich Mehrwert generiert werden kann und damit ein Data Science Projekt gelingt, wird allerdings weit mehr als nur ein Data Scientist benötigt. Es bedarf des Zusammenspiels verschiedener Rollen, Fähigkeiten und Kompetenzen. Wir verraten Ihnen welche Rollen benötigt werden, wer wofür verantwortlich ist und was sich hinter den neuen Datenjobs verbirgt.
Welche Rollen und Kompetenzen werden in einem Data Science Projekt benötigt?
Die Durchführung eines Data Science Projekts ist ein komplexer Prozess mit mehreren Phasen und Schritten, der die Zusammenarbeit eines ganzen Teams erfordert. Um sämtliche Aufgaben eines Data Science Projekts erfolgreich durchzuführen, werden verschiedene Rollen mit unterschiedlichem Spezialwissen benötigt. Eine Rolle entspricht dabei nicht zwangsläufig einer Person. Gerade bei kleineren Projekten werden zumeist mehrere Rollen von einer Person übernommen. Die nachstehende Grafik gibt einen Überblick über die erforderlichen Rollen und wann sie während eines Data Science Projekts benötigt werden.
Zu den Hauptrollen eines jeden Data Science Projekts gehören die Mitarbeiter einer Fachabteilung (die Domänenexperten), der Data Scientist, der Data Engineer und der Software Engineer. Ihre Aufgaben innerhalb eines Data Science Projekts werden im Folgenden näher erläutert.
Ihr wollt genauer wissen, wie ein typisches Data Science Projekt abläuft und welche Besonderheiten ein Data Science Projekt mit sich bringt? Hier erklären wir euch, wie euer Data Science Projekt Schritt für Schritt zum Erfolg wird.
Was macht ein Data Scientist?
Der Data Scientist spielt in der Rolle als Problemlöser und Lösungsentwickler einen zentralen Teil im gesamten Data Science Projekt. Der Data Scientist arbeitet eng mit den Fachabteilungen als auch mit dem Management zusammen und muss deren Bedürfnisse erkennen, abstrahieren und umsetzen. Ihre Aufgabe ist es, einen Nutzen aus den verfügbaren Massen an Daten zu ziehen. Dazu müssen Data Scientists mit eben jenen großen und heterogenen Datenmengen umgehen können, indem sie Daten aus unterschiedlichen Quellen extrahieren, bereinigen, zusammenführen, aufbereiten und, mit Fragestellung oder ohne (explorativ), analysieren.
Im spezifischeren Sinne ist der Data Scientist primär für eine durchdachte Analysestrategie, die Auswahl der Methodik, die Durchführung der Analysen sowie die Interpretation und Visualisierung der Ergebnisse verantwortlich. Was den Teil der Analyse betrifft, sind Data Scientists Experten bei der Anwendung von Methoden aus dem Bereich der Künstlichen Intelligenz und des Machine Learning. Neben der eigentlichen Analyse der Daten sind Data Scientisten aber ebenso vertraut mit der Datenbeschaffung und -integration sowie der Entwicklung von Softwareprodukten. Um die Unternehmensführung bei zukünftigen geschäftlichen Entscheidungen unterstützen zu können, ist zudem ein grundlegendes Set an „soft-skills“ erforderlich, heißt Kommunikations- und Präsentationsfähigkeiten dürfen bei einem Data Scientist nicht zu kurz kommen. Es gilt komplexe Analyseverfahren verständlich für die Fachabteilungen zu machen und vor allem den daraus resultierenden Nutzen einfach nachvollziehbar darzustellen.
Aufgrund der Vielzahl an Aufgaben werden die Verantwortlichkeiten eines Data Scientist gerade in größeren Projekten oftmals in spezifischere Rollen aufgeteilt, wozu neben dem Machine Learning Engineer (spezialisiert auf das Training und die Optimierung von Machine Learning Modellen) auch der Data Engineer gehört.
Was macht ein Data Engineer?
Der Data Engineer hat einen technischeren Fokus als der Data Scientist und sorgt für die benötigte IT-Infrastruktur. Beim Data Engineer handelt es sich oftmals um eine Spezialisierung innerhalb des Software Engineering. Im Rahmen eines Data Science Projekts sind die Data Engineers insbesondere in den frühen und späten Phasen tätig, denn sie schaffen die Schnittstellen zu den relevanten Systemen. Die Data Engineers arbeiten daher vor allem mit Datenbanken und Data Warehousing Tools und sind in Big Data Ökosystemen sowie Cloud-Umgebungen zu Hause. Zu Beginn eines Data Science Projekts kümmern sie sich darum, alle benötigten Daten aus den verschiedenen Quellen zusammenzubringen, aufzubereiten, anzureichern und für die nachfolgenden Analyseschritte bereitzustellen. Am Ende eines Data Science Projekts sind sie dann dafür verantwortlich, die nahtlose und dauerhafte Integration der Analyseergebnisse in den operativen Geschäftsalltag und Prozesse zu gewährleisten.
Was macht ein Software Engineer?
Der Software Engineer kommt ins Spiel, sobald es darum geht, einen analytischen Prototyp in ein Datenprodukt zu überführen. Um dies zu erreichen, schließt sich an ein erfolgreiches Data Science Projekt daher ein Softwareentwicklungsprojekt an. Ein Software Engineer arbeitet eng mit User Experience Engineers und Designern zusammen, um benutzerfreundliche Anwendungen und Softwarelösungen zu konzipieren und zu entwickeln, sodass die Nutzer dauerhaft von den Analyseergebnissen profitieren können. Zusätzlich besteht ein enger Austausch mit den Data Engineers, um einen einwandfreien Datenfluss in die Softwarelösung und auch wieder zurück zu gewährleisten.
Was macht ein Domänenexperte?
Die Domänenexperten sind meist keine Analyseexperten, dafür kennen sie die Problemstellung, die Bedürfnisse und den Kontext der Fragestellung so gut wie kein anderer. Je nach Anwendungsfall kann es sich dabei z. B. um einen Marketing Experten, einen Supply Chain Manager oder einen Maschinenbauer handeln. Sie sind vor allem zu Beginn eines Projekts wichtig (Business Understanding), um sicherzustellen, dass das zugrundeliegende Geschäftsproblem gut verstanden wird. Ihr Input ist aber auch in den Phasen des Data Understanding und der Data Preparation äußerst wichtig.
Was macht ein Projektmanager?
Der Projektmanager plant und koordiniert den Gesamtablauf des Data Science Projekts. Neben traditionellen Projektmanagementfähigkeiten wird dazu ein gutes Verständnis der technischen und methodischen Besonderheiten eines Data Science Projekts sowie Wissen über die Anwendungsdomäne benötigt. Um den speziellen Anforderungen eines Data Science Projekts gerecht zu werden, eignet sich ein agiles Projektmanagement besonders gut. Durch ein agiles Vorgehen werden ein regelmäßiger Austausch und Feedback zwischen den Stakeholdern, insbesondere den Data Scientisten und den Domänenexperten, über den gesamten Prozess ermöglicht. Der Vorteil?
- Die Data Scientisten lernen durch den Austausch mit den Fachbereichen deren Geschäftsalltag und Besonderheiten immer besser kennen. Dies ist entscheidend, um die Realität bestmöglich in Modellform abbilden zu können.
- Der Fachbereich ist immer über den aktuellen Stand informiert und bekommt zudem Einblicke in die Schritte und Herausforderungen eines Data Science Projekts, was dem Wissenstransfer und Know-how Aufbau dient.
Fazit
Data Science ist Teamarbeit! Damit ein Data Science Projekt gelingt, kommt es auf die richtige Teamzusammenstellung an: Jede Rolle bringt vielfältige Kompetenzen mit, die sich gegenseitig ergänzen und so einen wertvollen Beitrag für das Erreichen des gemeinsam gesteckten Ziels beitragen. Die Zusammenstellung eines interdisziplinären Teams ist daher maßgeblich für den Erfolg, aber noch nicht alles. Es kommt auf die agile Zusammenarbeit zwischen den einzelnen Aufgabenbereichen und während der verschiedenen Phasen an, denn die Phasen sind nicht in sich abgeschlossen, sondern eng miteinander verflochten. Daher kommt der Transparenz, dem Verständnis für die Aufgaben des Anderen, dem Wissenstransfer und einer Kommunikation auf Augenhöhe eine entscheidende Rolle zu. Kooperativ wird so das Potenzial der Datenschätze erschlossen.