Predictive Analytics: Wir müssen uns sputen!
Wir müssen uns sputen! Diese Worte hat Angela Merkel bereits im Frühjahr 2016 im Zusammenhang mit Big Data benutzt und gleichzeitig Daten als die Rohstoffe des 21. Jahrhunderts bezeichnet. Im Gegensatz zu anderen Rohstoffen wird die Menge an Daten aber nicht kleiner, sondern Sie verdoppelt sich laut einer Studie des IDC (International Data Corporation) alle zwei Jahre und wird somit regelrecht explodieren. Dabei könnte gerade die momentane Corona Krise die Digitalisierung weiter beschleunigen. Höchste Zeit also sich mit dem Thema auseinanderzusetzen, um den Anschluss nicht zu verlieren.
Je nach Branche und Größe stellen sich Firmen dabei spezifische Fragen:
- Welche Analysen kann ich mit meinen Daten durchführen?
- Wie kann ich meine vorhandenen Daten, die eventuell in verschiedenen Datenbanken an verschiedenen Orten liegen, bündeln und aufbereiten?
- Wie komme ich an externe Daten?
- Wie kann ich meine internen Daten mit externen Daten kombinieren?
- Wie schaffe ich es mit knappen Ressourcen diese komplexe Thematik umzusetzen?
- Wie kann ich Knowhow in diesem Bereich aufbauen?
- Welche Methoden zur Auswertung sind geeignet?
Anwendungsmöglichkeiten
Agrarwirtschaft
- Smart Farming
- Precision Farming
- Satelliten Monitoring
- Sales und Marketing
- …
Baugewerbe
- Prozessautomatisierung
- Projektrisiko-management
- Preismanagement
- Sales und Marketing
- …
Chemie & Rohstoffe
- Prozessautomatisierung
- Reputations-management
- Analyse von Labor- und Prozessdaten
- Sales und Marketing
- ESG-Monitoring
- …
Energie & Umwelt
- Vorhersage von Energiebedarf
- Überwachung von Energie- und Umweltdaten
- Reputations-management
- Sales und Marketing
- Kundenanalyse
- …
Finanzen, Versicherungen, Immobilien
- Fraud Detection / Money Laundering Investigations
- Verbesserte Kreditrisikomodelle
- ESG – Monitoring
- Reputations-risikomanagement
- Sales und Marketing
- Kundenanalyse
- …
Handel
- Bedarfsvorhersage (Wetter, Temperatur, …)
- Lagerraumoptimierung
- Personalisierter Customer Journey
- Preisoptimierung
- …
Internet
- Social Media Prediction
- Sales und Marketing
- Reputations-management
- Analyse von Texten
- Wettbewerberanalyse
- …
Gastronomie
- Nachfragevorhersage, abhängig vom Wetter
- Sales und Marketing
- Optimierter Kundendialog
- Social Media Management
- …
Telekommunikation
- Kundenanalyse
- Sales und Marketing
- Netzanalyse
- Social Media Monitoring
- Wettbewerberanalyse
- …
Metall, Elektronik und Automobil
- Auswertungen von Sensordaten
- Maschinenausfälle (Anomaly Detection)
- Sales und Marketing
- Wettbeweberanalyse
- Reputations-management
- …
Pharma & Gesundheit
- Mustererkennung von Krankheiten
- Optimierte Behandlungspläne
- Kostenoptimierung
- Sales und Marketing
- Reputations-management
- …
Ist Ihr Case nicht dabei? Was ist Ihr Anliegen bzw. Ihre Idee?
Bei den Anwendungen ist zunächst zwischen einer Beschreibung des Ist-Zustands und einer Vorhersage (Predictive Analytics) zu unterscheiden. Der Ist-Zustand fasst etwa zusammen welche Kunden letztes Jahr gekündigt haben. Bei der Vorhersage kommt zusätzlich der Blick in die Zukunft ins Spiel: Welche Kunden werden nächstes Jahr wahrscheinlich abspringen? Was sind die ausschlaggebenden Faktoren hierfür? Um diese Fragen beantworten zu können werden statistische Modelle benötigt, etwa aus dem Bereich des Machine Learnings. Eine besonders spannende Herausforderung bei zahlreichen Vorhersagen ist, dass oft verschiedene Datenquellen (intern versus extern) und Datentypen (Bilder, Text, Zahlen, Sound) im Rahmen einer Multi Source Estimation miteinander kombiniert werden müssen. Zudem wurden die Daten oft nicht speziell für eine Analyse erstellt und müssen deshalb zunächst geeignet aufbereitet werden. Dies ist zum Beispiel typischerweise bei Bildern oder Texten im Rahmen von Social Media Daten der Fall.
Modellwahl
Nachdem geeignete Daten ausgewählt und aufbereitet worden sind, werden als nächstes statistische Modelle zur Datenanalyse angewandt. Hier gilt es geeignete Modelle auszuwählen und verschiedene Fehler, wie etwa das Overfitting (Überanpassung an die Trainingsdaten; Vorhersagekraft für neue Daten nimmt ab) zu vermeiden. Das beste Modell hängt dabei stark von der Fragestellung ab. Grundsätzlich können drei Problemstellungen unterschieden werden:
- Unsupervised Learning: Lernen, ohne im Voraus das Ziel zu kennen. Eine typische Anwendung ist das Clustering, wie etwa die Kundensegmentierung. Bekannteste Verfahren: k-means, Neuronale Netze, Hidden Markov, Gaussian Mixture
- Supervised Learning: Lernen, wobei im Voraus das Ziel bekannt ist. Typische Anwendungen sind die Regression (etwa Kündigungsvorhersage von Kunden) oder die Klassifikation (etwa Sentimentanalyse). Bekannte Methoden sind: Regression (LM, GLM, Logistische), Baumverfahren (Random Forest, XGBoost), Support Vector Machine, Neuronale Netze/Deep Learning
- Reinforcement Learning: Selbstständiges Lernen durch Belohnungen. Typische Anwendungen sind zum Beispiel im Bereich der Computerspiele Intelligenz zu finden. Bekannte Methoden sind: Monte-Carlo-Methoden und Temporal Difference Learning (wie Deep-Q-Learning)
Visualsierung und Kommunikation
Der Erfolg eines Data Science/ Machine Learning Projekts hängt aber nicht nur von den Daten und der Wahl des geeigneten Modells ab, sondern maßgeblich auch von der zielgerichteten Kommunikation mit dem Kunden sowie der Visualisierung. Nur so kann gewährleistet werden, dass die richtigen Schlüsse gezogen werden.