InsightsHow we workTeamJoinData Readiness Check
zurück zur Übersicht

Der typische Data Science Prozess

nxt statista Data Science, 24. September 2020

Viele unserer Projekte bei nxt statista zeichnen sich dadurch aus, dass wir bereits in einer frühen Projektphase erproben, welche Daten verfügbar sind oder verfügbar gemacht werden können und welche Erkenntnisse sich aus ihnen gewinnen lassen. Natürlich ist die konkrete Ausgestaltung dieses Prozesses stark von der Aufgabenstellung abhängig. Dennoch gibt es eine typische Abfolge der wesentlichen Prozessschritte. Insbesondere der Zeitaufwand für die Schritte vor der eigentlichen Datenanalyse wird dabei anfänglich oft unterschätzt. Um Anhaltspunkte für Projektplanungen zu geben, haben wir die Einzelschritte des Data Science Prozesses mit ihrem durchschnittlichen Zeitaufwand hier einmal dargestellt:

Typische Prozessschritte eines Data Science Projektes mit ihrem Zeitanteil

10% Konzeption

Zu Beginn eines Data Science Projektes steht eine Konzeptionsphase, in der eine Fragestellung oder ein Problem identifiziert wird. Dies beginnt häufig mit einem einfachen Brainstorming und mündet idealerweise in einer möglichst präzisen Problembeschreibung, welche die Grundlage für die Entscheidung bildet, welche Art von Daten überhaupt benötigt werden, um die betreffende Frage zu beantworten bzw. das Problem zu lösen.

25% Datenakquise und Datenerhebung

Ist das Problem konzeptuell klar gefasst, können gezielt geeignete Datenquellen identifiziert, bewertet und schließlich ausgewählt werden. Dabei ist zum einen die inhaltliche Relevanz und die vermutete oder sogar überprüfte Datenqualität leitend, aber es spielen auch andere Faktoren wie Verfügbarkeit, Kosten, Aufwand usw. eine große Rolle.

Nach dem Auswählen der geeigneten Datenquellen ist die Erhebung der Daten aus diesen Quellen der nächste Schritt. Dies kann auf unterschiedlichste Weise erfolgen. Abhängig davon, in welchem Format die Daten vorliegen, können hier z.B. Data Mining Tools oder Scraper zum Einsatz kommen – beispielsweise um Daten von Webseiten oder aus PDF-Dokumenten zu erheben. Die Erhebung von Primärdaten (z.B. per Fragebogen oder anderen eigenen Messungen) ist zwar aufwendig, kann jedoch zu einer höheren Datenqualität führen sofern dieser Aspekt bei der Datenerhebung entsprechende Aufmerksamkeit erfährt (siehe auch nächster Schritt).

35% Überwachung der Datenqualität und Datenbereinigung

Eine kontinuierliche Überwachung der Datenqualität beginnt idealerweise bereits während der Datenerhebung bzw. Datengenerierung, um ggf. noch korrigierend in den Generierungsprozess eingreifen zu können. Dabei sollten immer mehrere Indikatoren gleichzeitig betrachtet werden, die möglichst viele Dimensionen von Datenqualität (z.B. Vollständigkeit, Konsistenz, Korrektheit) abbilden. Leider unterliegt der Generierungsprozess oder Teile dessen häufig nicht der eigenen Kontrolle. Spätestens jedoch vor der eigentlichen Analyse muss die Datenqualität beurteilt werden, um ggf. Quellen zu schlechter Qualität zu eliminieren und bestimmten Phänomenen mangelnder Qualität (z.B. fehlende Werte) mit adäquaten Methoden zu begegnen (z.B. Imputation).

Bevor die Daten analysiert oder Algorithmen damit „gefüttert“ werden können, müssen die Daten entsprechend aufbereitet werden. Der Erfahrung vieler Data Scientists nach nimmt diese Aufgabe einen sehr großen, wenn nicht sogar den größten, Teil ihrer Tätigkeit in Anspruch. Daten, insbesondere wenn diese aus verschiedenen Quellen zusammengeführt werden, müssen normalisiert werden (z.B. Vereinheitlichung des Datumformats), fehlende Werte müssen mit geeigneten Verfahren ersetzt (imputiert) werden und Variablen müssen transformiert werden.

Die Einrichtung einer sogenannten „Datenpipeline“ ermöglicht zumindest eine weitgehende Automatisierung der bisher genannten Schritte, was im Projektverlauf zu erheblichen Zeit- und Aufwandersparnissen führen kann.

20% Modellierung und Analyse, Schlussfolgerungen

Der wahrscheinlich spannendste Teil eines Data Science Projektes ist dann die eigentliche Modellierung bzw. Analyse der Daten. Hier muss zunächst ein für die Fragestellung und die Art der Daten geeignetes Verfahren ausgewählt werden. Der Data Scientist kann sich dazu aus einem stetig wachsenden Werkzeugkasten sowohl klassisch statistischer Verfahren (z.B. Regressionsanalyse, Faktorenanalyse) als auch Verfahren des maschinellen Lernens (z.B. Neuronale Netze, Support Vector Machines, Random Forest) bedienen.

Insbesondere wenn ein prädiktives Modell entwickelt werden soll, unterscheidet man typischerweise eine Trainings- und eine Testphase. In der Trainingsphase wird das Modell mit Daten „gefüttert“ und versucht, aus den Daten zu „lernen“. In der Testphase wird die Vorhersagekraft des Modells mit neuen Daten anhand verschiedener Metriken überprüft und das Modell sukzessive optimiert.

Die reine Vorhersageleistung ist nur ein wichtiger Aspekt einer guten Modellierung. Insbesondere dann, wenn es um die Generierung von echten „Insights“ geht, welche auch über die konkrete Analyse hinaus nutzbar gemacht werden sollen, muss das Modellierungsergebnis adäquat im Hinblick auf die ursprüngliche Fragestellung interpretiert werden, um daraus die richtigen Schlussfolgerungen für das Projekt und darüber hinaus abzuleiten.

10% Implementierung

Soll ein Vorhersagemodell dauerhaft zum Einsatz kommen (z.B. ein Algorithmus für Produktempfehlungen in einem Onlineshop), muss dieser adäquat in die IT-Infrastruktur des Unternehmens implementiert werden, um seine Funktion erfüllen zu können. Hierbei spielen dann zunehmend technische Faktoren, z.B. die zeitliche Performanz eines Modells, eine wichtige Rolle, weshalb hier häufig auf Cloud-Plattformen zurückgegriffen wird. Ein einmal implementiertes Modell muss kontinuierlich evaluiert und gewartet werden.

Nächster Artikel

Data Science Methoden - ab wann ist die Arktis eisfrei?

Nirgendwo auf der Welt manifestiert sich der Klimawandel so stark wie in der Arktis. Doch gerade in dieser Region sind die Unterschiede in den Simulationsergebnissen von globalen Klimamodellen besonders groß, was Vorhersagen über die zukünftige Entwicklung des arktischen Eises enorm erschwert. Auch in unseren Projekten stehen wir häufig einer Vielzahl von für sich genommen jeweils hochwertigen Datenquellen gegenüber, deren Analyse jedoch zu teils widersprüchlichen Aussagen führt.

Daniel Senftleben, 2020-10-01
Logo© 2019 - 2020 LSP Digital GmbH & Co. KG
ImpressumDatenschutz