Wie man Data Science Projekte meistert
Das weltweite Datenvolumen soll bis 2025 auf 175 Zettabyte wachsen, so die International Data Corporation (IDC) – eine unvorstellbar große Zahl mit...
Fehlerhafte Daten bringen Probleme und Kosten mit sich. Wir erklären was Datenqualität ist und wie gut Ihre Daten sein sollten
Münster, Muenster, MÜNSTER oder MUENSTER, 0000-0000-00 als Kundenkontaktnummer, 99/99/99 als Kaufdatum…die Beispiele fehlerhafter Daten sind lang und die Probleme und Kosten schlechter Datenqualität real: Vom Nichterreichen eines Kunden über die falsche Ansprache in einem Newsletter bis hin zur falschen Rechnungsstellung, um nur einige Beispiele zu nennen. Entscheidungen, die auf Basis schlechter Daten getroffen werden, können nicht gut sein. Einer Umfrage von Experian Marketing Services zufolge, glauben 73% der deutschen Firmen, dass ungenaue Daten sie daran hindern, ein herausragendes Kundenerlebnis zu bieten. Eine gute Datenqualität ist damit entscheidend für das tagtägliche Handeln eines Unternehmens und vor allem ein maßgeblicher Erfolgsfaktor für Data Science Projekte. Doch was bedeutet Datenqualität überhaupt, wie gut müssen die Daten für ein Data Science Projekt sein und wie können Sie die Qualität Ihrer Daten überprüfen? Diesen Fragen widmen wir uns in diesem Artikel.
Seitenverzeichnis
Definition: Die Datenqualität (Englisch data quality) beschreibt, wie gut die Datenbestände sich für vorgesehene Anwendungen eignen. Man spricht daher in dem Zusammenhang auch von der „fitness for use“, heißt der Zweckeignung der Daten. Die Qualität von Daten ist damit sehr kontextabhängig. Denn während die Datenqualität für einen bestimmten Anwendungsfall ausreichend sein kann, können sie für einen anderen hingegen dennoch ungenügend sein.
Mehr zum Thema Data Science Projekte ➞
Investitionen in Maßnahmen, die die Qualität der Daten sicherstellen sind also maßgeblich für einen Projekterfolg, aber auch darüber hinaus mehr als lohnend. Denn durch mangelnde Datenqualität können erhebliche Kosten für ein Unternehmen entstehen.
Grundsätzlich hat eine schlechte Datenqualität aber weitaus weitreichendere Konsequenzen als finanzielle Verluste. Sie reichen von Auswirkungen auf das Vertrauen der Mitarbeiter in Entscheidungen und die Zufriedenheit der Kunden über Produktivitätseinbußen (durch z. B. zusätzlich benötigte Zeit zur Datenaufbereitung) bis hin zu Compliance Problemen.
Die Quellen schlechter Datenqualität können sehr vielseitig sein, wie nachstehende Grafik verdeutlicht. Allem voran steht zumeist jedoch der Dateneingabeprozess, sei es von Mitarbeitern oder Kunden.
Die Quellen schlechter Datenqualität (Quelle: The Data Warehousing Institute, 2002, Data Quality and the Bottom Line)
In der Praxis gibt es eine Vielzahl an Kriterien, mit deren Hilfe sich die Qualität von Daten bewerten lässt. Zu den gängigsten Bewertungskriterien gehören unter anderem die folgenden:
Die Kriterien Korrektheit, Vollständigkeit, Einheitlichkeit, Genauigkeit und Redundanzfreiheit beziehen sich im Allgemeinen auf den Inhalt und die Struktur der Daten und decken eine Vielzahl der Fehlerquellen ab, die am häufigsten mit schlechter Datenqualität in Verbindung gebracht werden. Dazu gehören zumeist Dateneingabefehler, wie unter anderem Tippfehler, doppelte Dateneinträge, aber auch fehlende oder falsche Datenwerte.
Die nachfolgende Grafik gibt anhand von Beispielen einen Überblick, was für Fehler sich hinter den einzelnen Kriterien verbergen sowie mögliche Ursachen und Gegenmaßnahmen.
Beispiele für Probleme in der Datenqualität, mögliche Ursachen und Gegenmaßnahmen.
Natürlich gilt, je vollständiger, konsistenter und fehlerfreier Ihre Daten, desto besser. Dennoch ist es nahezu unmöglich, sicherzustellen, dass alle Daten die oben genannten Kriterien zu 100% erfüllen. Tatsächlich müssen Ihre Daten auch gar nicht perfekt sein, sondern sie müssen den Anforderungen der Personen oder dem Zweck, zu welchem die Daten genutzt werden sollen, erfüllen.
Wie gut muss die Qualität der Daten für ein Data Science Projekt sein? Leider gibt es auf diese Frage keine allgemeingültige Antwort. Wie so oft, gibt es auch hier einige Aspekte, die sich auf die benötigte Datenqualität auswirken. Dazu gehört unter anderem, der Zweck zu welchem die Daten genutzt werden sollen, heißt der Anwendungsfall sowie das gewünschte Modellierungsverfahren. Die Datenqualität hängt zudem auch von der Art der Fehler, die diese aufweisen, ab und inwiefern sich diese im Rahmen der Datenaufbereitung (Data Preparation) während eines Data Science Projekts korrigieren lassen.
Probleme in der Datenqualität können also in unterschiedlichem Ausmaß im Nachgang behoben werden. Um die Daten erfolgreich aufbereiten zu können, ist das Zusammenspiel von Data Scientisten und den Fachbereichen notwendig, damit klar ist, welche Daten korrekt und welche zu korrigieren sind. Um sicherzustellen, dass jeder verstehen kann, was in den Daten steht, kann ein sogenanntes Data Dictionary helfen.
Auch wenn sich manche Fehler also beheben lassen, besteht der bessere Ansatz immer darin, es erst gar nicht so weit kommen zu lassen. Unsere folgende Checkliste soll Ihnen dabei helfen, Ihre Daten einem ersten Qualitätscheck zu unterziehen.
Daten gelten mittlerweile als vierter Produktionsfaktor neben Boden, Kapital und Arbeit. Daten sind somit als eine kritische Ressource zu betrachten, die es entsprechend zu managen gilt, wenn Sie es nicht bereits tun. Um eine hohe Datenqualität sicherzustellen, bedarf es einem umfassenden Datenqualitätsmanagementsystem. Denn, Datenqualität ist keinesfalls eine reine IT, sondern eine Managementaufgabe. Das Thema Datenqualität ist dabei ein kleines, aber wichtiges Rad einer gesamten Datenstrategie. Dabei sind verschiedene Maßnahmen notwendig, die sowohl initiale, einmalige Maßnahmen, als auch kontinuierlich durchzuführende Tätigkeiten umfassen.
Kurz und knapp möchten wir Ihnen abschließend daher die folgenden Best Practice Maßnahmen an die Hand geben:
Denn, Probleme in der Datenqualität haben nicht nur Auswirkungen auf den Erfolg eines Data Science Projekts, sondern sind mit weitreichenden Folgen für das Unternehmen insgesamt verbunden. Die gute Nachricht für Ihr Data Science Projekt lautet allerdings: Es braucht nicht den perfekten Datensatz. Und, einige Fehler, wenn auch bei weitem nicht alle (!), können im Rahmen der Datenaufbereitung von den Data Scientists behoben werden.
Das weltweite Datenvolumen soll bis 2025 auf 175 Zettabyte wachsen, so die International Data Corporation (IDC) – eine unvorstellbar große Zahl mit...
Unternehmen setzen zunehmend auf Data Science und Data Analytics Lösungen, um das Meer an Daten nutzenstiftend für das eigene Geschäft einzusetzen.
Daten alleine schaffen noch keinen Mehrwert. Es kommt auf den richtigen Anwendungsfall an.
In unserem Blog dreht es sich um Themen rund um Data Science und KI.