Heute erhalten Sie die Fortsetzung mit Schritt 4 aus unserem Whitepaper zum Thema „6 Schritte zum erfolgreichen Data Science-Projekt“
Herausforderung 4: Eine stabile Qualität des Modells in Produktion
Insbesondere wenn Event-basierte Informationen (z. B. Bestellungen oder Clickstreams) bei der Modellentwicklung mit einfließen, sorgen oftmals zeitliche Trends oder Saisonalitäten in den Daten dafür, dass das Machine Learning Modell über die Zeit keine stabile Performance aufweist. So ist beispielsweise das Einkaufsverhalten von Kunden in der Vorweihnachtszeit oftmals ein anderes als im Rest des Jahres. Das gewählte Modell sollte diese Besonderheiten unbedingt berücksichtigen, um je nach Saison keine unplausiblen Ergebnisse zu liefern. Je länger ein Modell im Einsatz ist, umso wahrscheinlicher kann eine Datensituation auftreten, die bei der Modellentwicklung nicht berücksichtigt werden konnte, z. B. ein Konkurrenzunternehmen entwickelt ein ähnliches Produkt oder das Kundenverhalten verändert sich maßgebend. Ein sogenannter „concept drift“ in den Daten ist die Folge, d. h. die Wirkungsweise der Einflussgrößen auf die Zielvariable ändert sich grundlegend.
Lösung
Um eine kontinuierliche Modellgüte zu gewährleisten, sollten bereits bei der Modellentwicklung Methoden eingesetzt werden, die z. B. saisonale Muster und Trends erfassen und berücksichtigen. Dazu lassen sich z. B. im Rahmen der Feature-Extraktion Methoden der Zeitreihenanalyse einsetzen. Zusätzlich kann durch ge
schicktes Datenpooling eine zeitstabile Datengrundlage geschaffen werden. Zudem ist es wichtig, die Modell-Performance im Live-Betrieb kontinuierlich zu beobachten. Mit modernen Visualisierungs-Tools und Model Management Frameworks behält man stets einen Überblick über die Performance des Modells. Unter der Vielzahl
von Metriken, die zur Messung der Modell-Performance zur Verfügung stehen, sollte dabei zunächst eine möglichst aussagekräftige ausgewählt und dann konstant während des Live-Betriebs gemonitort werden. Außer Acht gelassen wird dabei oftmals, dass diese Metrik selbst zufälligen Schwankungen unterliegen kann. Mit geeigneten statistischen Verfahren können diese Schwankungen aufgedeckt und beim Monitoring berücksichtigt werden
Es ist fast geschafft! Mit dem letzten Schritt am 28. August beschäftigen wir uns mit der Herausforderungen „Verwaltung verschiedener Data Use Cases in Produktion“ und „Große Bandbreite benötigter Methoden und Technologien“.