Heute erhalten Sie die Fortsetzung mit Schritt 3 aus unserem Whitepaper zum Thema „6 Schritte zum erfolgreichen Data Science-Projekt“. 

Herausforderung 3: Ausreichende Qualität des Modells

Auch bei einer durchdachten Analysestrategie und einer klaren Zieldefinition ist bis zur konkreten Modellentwicklung letztlich unklar, wie gut die ursprüngliche Fragestellung mit den vorhandenen Daten wirklich beantwortet werden kann. Insbesondere kann eine langwierige Datenaufbereitung gepaart mit einer voreiligen Festlegung auf eine bestimmte Vorgehensweise dazu führen, dass Modelle entwickelt werden, die letztlich nicht zum gewünschten Ergebnis führen.

 

Lösung
Zielführender ist es, auf effiziente Weise ein möglichst gutes Prototyp-Modell zu entwickeln und dieses dann iterativ zu verbessern. Hierbei sind zwei zentrale Punkte zu beachten:

Aufbereitung der Daten (Feature-Extraktion)
Die Datenaufbereitung bzw. Feature-Extraktion legen den Grundstein für eine hohe Güte eines Machine Learning Modells, sind jedoch typischerweise sehr zeitaufwändige Aufgaben. Als Feature bezeichnet man dabei alle potenziellen Einflussfaktoren auf die Zielgröße des Modells. Bei der Feature-Extraktion werden aus Rohdaten (z. B. „Kunde A hat sich x-mal im letzten Monat in das Online-Kundencenter eingeloggt“) weitere Informationen abgleitet (z. B. „Kunde A hat sich im Vergleich zu den vergangenen 12 Monaten im letzten Monat überdurchschnittlich häufig eingeloggt“). Um aus den Daten diese wertvollen Insights zu generieren, sollten Tools zur (semi-)automatisierten Feature-Extraktion eingesetzt werden, die den Prozess der Modellentwicklung verkürzen.

Auswahl und Tuning eines geeigneten Algorithmus
Für die Auswahl des geeigneten Modells (z. B. zur Vorhersage des Kundenwerts) stehen mittlerweile eine Vielzahl an Machine Learning Verfahren zur Verfügung. Es empfiehlt sich, zunächst je Verfahrensklasse mit einem Standard-Algorithmus Modell-Prototypen zu entwickeln und diese miteinander zu vergleichen. So lässt sich schnell feststellen, welcher Verfahrensklasse für den ausgewählten Use Case besonders geeignet ist. Bei ausreichender Modellgüte kann bereits ein Prototyp-Modell für den operativen Einsatz getestet werden (z. B. zur selektiven Steuerung von Upsell-Kampagnen). Nachgelagert kann dann die Modellgüte durch Ensemble-Techniken und Parameter-Tuning weiter verbessert werden. 

Nach Schritt 3 haben Sie bereits einen bedeutenden Teil Ihres Projektes geschafft. Am 14. August erfahren Sie, wie Sie eine stabile Qualität des Modells in Produktion gewährleisten.