background

Erfolgreich Data-Mining-Projekte durchführen mit CRISP-DM

Der Begriff “Cross-Industry Standard Process for Data Mining”, kurz CRISP-DM genannt, kam zuerst im Jahre 1966 im Rahmen eines EU-Förderprojekts auf. Unter den Teilnehmern waren Grössen wie Daimler-Chrysler (ehemals Daimler-Benz) und SPSS (ehemals ISL). Das interessante an CRISP-DM ist die Tatsache, dass es sich um ein branchenübergreifendes Prozess-Modell handelt und bis heute nicht eigentumsrechtlich geschützt ist. Bei der sehr bewährten CRISP-DM-Methode sollten strukturierte Ansätze zugrunde liegen, die zur Planung eines Data-Mining-Projekts benötigt werden.

CRISP-DM Framework for Data Projects

In der Regel sind sechs Phasen bei Data-Mining-Projekten involviert, die man aber nicht einmalig oder fortlaufend betrachten sollte. Sehr oft muss zwischen den genannten Phasen mehrmals gewechselt werden. Das heisst, dass Data-Mining-Projekte nichts anderes als eine idealisierte Folge von Ereignissen sind. In der Praxis können viele Aufgaben in einer anderen Reihenfolge ausgeführt werden, und es ist häufig erforderlich, zu vorherigen Aufgaben zurückzugehen und bestimmte Aktionen zu wiederholen. Somit wird nicht immer versucht, alle möglichen Routen durch den Data Mining-Prozess zu erfassen.

Folgende Phasen gelten als Standard

1. Geschäftsverständnis: Ziele und Anforderungen sollten als erstes festgelegt werden sowie eine erste Vorgehensweise.

2. Datenverständnis: Sichtung und Qualitätsprüfung der zur Verfügung stehenden Daten, Überprüfung der Qualität der Daten.

3. Datenvorbereitung: Die Vorbereitung und Konstruktion für den nächsten Schritt der Daten-Modellierung.

4. Daten-Modellierung: Einsatz von geeigneten Data-Mining-Verfahren und deren Optimierung.

5. Evaluierung: Das Herausfinden des geeigneten Modells mittels sorgfältigem Abgleich mit der Aufgabenstellung.

6. Bereitstellung: Aufbereitung und finales Überprüfen der ermittelten Ergebnisse.

Bei den vorgenannten Schritten im Data-Mining ist der Bereich der Datenvorbereitung, da sie sehr viel Zeit und Forschungsarbeit im eigenen Unternehmen benötigt, der meist umfangreichste.

Verlauf der ersten Phase

Es ist also erst einmal wichtig, was aus geschäftlicher Sicht erreicht werden soll. Ein Geschäftsziel gibt Ziele in der Geschäftsterminologie an. Ein Data-Mining-Ziel gibt die Projektziele in technischer Hinsicht an. Das Ziel dieser Phase des Prozesses ist es, wichtige Faktoren aufzudecken, die das Ergebnis des Projekts beeinflussen könnten. Eine klare Beschreibung des Ziels sollte als erstes erarbeitet werden. “Warum gewinnen wir keine neuen Kunden?” oder “Warum verweilen Besucher nur für wenige Minuten auf unserer Website?”. Das primäre Ziel könnte also sein, eine neue Zielgruppe zu finden oder an eine Neugestaltung oder Modernisierung Ihrer Website zu denken.

Bewertung der aktuellen Situation

Anhand der Ressourcen, Annahmen, Einschränkungen etc. erfolgt nun eine erste detaillierte Ermittlung, die bei der Bestimmung des Datenanalyse-Ziels sowie des Projektplans berücksichtigt werden muss. Es erfolgt eine Bestandsaufnahme der Ressourcen, wie zum Beispiel welches Personal/Fachkräfte herangezogen wurden (Business-/Daten-Experten, technischer Support, Data-Mining-Experten). Auf welche Daten wurde zugegriffen, wie Lager, Betriebsdaten, fixe Bestellungen etc., Rechenressourcen (Hardware-Plattformen), Software (Data-Mining-Tools und andere relevante Software).

Alle Anforderungen, Annahmen und Einschränkungen des Projektes sollten aufgeführt werden, einschliesslich des Zeitplans für die Fertigstellung, der erforderlichen Verständlichkeit und Qualität der Ergebnisse sowie etwaiger Fragen der Datensicherheit und etwaiger rechtlicher Fragen. Es sollte ebenfalls sichergestellt werden, dass die Daten verwenden werden dürfen. Eine Auflistung über die vom Projekt gemachten Annahmen sollte folgen. Dies können Annahmen über die Daten sein, die während des Data-Minings verifiziert werden können, aber auch nicht überprüfbare Annahmen über das mit dem Projekt verbundene Geschäft. Es ist besonders wichtig, letztere aufzulisten, wenn sie die Gültigkeit der Ergebnisse beeinflussen. Dies können Einschränkungen für die Verfügbarkeit von Ressourcen sein, aber auch technologische Einschränkungen, wie zum Beispiel die Grösse des Datensatzes, der für die Modellierung praktisch verwendet werden kann.

Bei Risiken und Eventualitäten sollten diese Ereignisse, die das Projekt möglicherweise verzögern oder zum Scheitern bringen können, aufgelistet werden. Ebenso gehören dazu entsprechende Notfallpläne, um Massnahmen ergreifen zu können.

Festlegung der Terminologie: Die Erstellung eines Glossars der für das Projekt relevanten Terminologien wird im Allgemeinen aus zwei Komponenten bestehen. Ein Glossar der relevanten Geschäftsterminologie, das Teil des für das Projekt verfügbaren Geschäftsverständnisses ist. Das Erstellen dieses Glossars ist eine nützliche „Wissenserhebung“ und Bildungsaufgabe. Ein weiteres Glossar der Data-Mining-Terminologie mit Beispielen, die für das betreffende Geschäftsproblem relevant sind.

Kosten und Nutzen: Erstellen Sie eine Kosten-Nutzen-Analyse für das Projekt, bei der die Kosten des Projekts mit den potenziellen Vorteilen für das Unternehmen verglichen werden, wenn es erfolgreich ist. Dieser Vergleich sollte so genau wie möglich sein. Beispielsweise sollten Sie finanzielle Kennzahlen in einer kommerziellen Situation verwenden.

Bestimmung der Data-Mining-Ziele

Geschäftserfolgskriterien: Hier sollte das Beschreiben der beabsichtigten Ergebnisse des Projekts, die die Erreichung der Geschäftsziele ermöglichen, erfolgen.

Data-Mining-Erfolgskriterien: Definieren Sie die Kriterien für ein erfolgreiches Ergebnis des Projekts in technischer Hinsicht, zum Beispiel ein bestimmtes Mass an Vorhersagegenauigkeit oder ein Kaufneigungsprofil mit einem bestimmten Grad an „Auftrieb“. Wie bei den Kriterien für den Geschäftserfolg kann es erforderlich sein, diese in subjektiven Begriffen zu beschreiben, in welchem Fall die Person oder Personen, die das subjektive Urteil abgeben, identifiziert werden sollten.

Der Projektplan

Beschreiben Sie den beabsichtigten Plan, um die Data-Mining-Ziele und damit die Geschäftsziele zu erreichen. Ihr Plan sollte die Schritte angeben, die während des restlichen Projekts ausgeführt werden müssen, einschliesslich der anfänglichen Auswahl der Werkzeuge und Techniken.

Der Projektplan listet die im Projekt auszuführenden Schritte auf, einschliesslich ihrer Dauer, erforderlichen Ressourcen, Eingaben, Ausgaben und Abhängigkeiten. Versuchen Sie, wenn möglich, die umfangreichen Iterationen im Data-Mining-Prozess zu erläutern, zum Beispiel Wiederholungen der Modellierungs- und Bewertungsphasen. Im Rahmen des Projektplans ist es auch wichtig, die Abhängigkeiten zwischen Zeitplan und Risiken zu analysieren. Kennzeichnen Sie Ergebnisse dieser Analysen explizit im Projektplan, idealerweise mit Massnahmen und Empfehlungen, wenn sich die Risiken manifestieren. Legen Sie an dieser Stelle fest, welche Bewertungsstrategie in der Bewertungsphase verwendet wird. Ihr Projektplan wird ein dynamisches Dokument sein. Am Ende jeder Phase überprüfen Sie den Fortschritt und die Erfolge und aktualisieren den Projektplan entsprechend. Bestimmte Überprüfungspunkte für diese Aktualisierungen sollten Bestandteil des Projektplans sein.

Erste Bewertung der Werkzeuge und Techniken: Am Ende der ersten Phase sollten Sie eine erste Bewertung der Werkzeuge und Techniken vornehmen. Hier wählen Sie beispielsweise ein Data-Mining-Tool aus, das verschiedene Methoden für verschiedene Prozessschritte unterstützt. Es ist wichtig, Werkzeuge und Techniken frühzeitig zu bewerten, da die Auswahl der Werkzeuge und Techniken das gesamte Projekt beeinflussen kann.

Welche Data-Mining-Software?

Die Zahl der Unternehmen, die immer mehr über grosse Mengen an Daten verfügen, wächst ständig. Die wichtigste Rolle dürfte dabei die Kundensegmentierung, Vertriebssteuerung oder das Target-Marketing spielen. Werden diese Daten aber nicht richtig analysiert und ausgewertet, sind sie für ein Unternehmen wertlos. Nur wer diese Daten zu nutzen weiss, wird einen Vorsprung erzielen.

Ein Data-Mining-Projekt steht und fällt mit dem richtigen Data-Mining-Programm. Es gibt im Netz eine Vielzahl an guten Data-Mining-Programmen, die prädiktive Modelle und eine operative prädiktive Analytik innerhalb eines Geschäftsprozesses erstellen können. Es können unter anderem unerwartete Muster und Assoziationen aufgedeckt werden. Selbst ortsbezogene Echtzeitdaten aus sozialen Medien, Blogs und Nachrichten können ermittelt werden.

Es ist darum sehr wichtig, solche Programme im Vergleich genau zu überprüfen. Es geht nicht um eine Datengenerierung, sondern um die Praxis der Datenanalyse. In Data-Mining-Programmen werden Erkenntnisse aus der Informatik sowie Mathematik mit Techniken des Machine-Learnings und der künstlichen Intelligenz miteinander verbunden. Somit werden die Auswertungen von grossen Datensätzen erst ermöglicht.


Machine/Deep Learning, künstliche Intelligenz für Ihr Unternehmen

comments powered by Disqus

Diese Artikel könnten Sie auch interessieren

Zuverlässige Qualitätssicherung mit KI
23. Juni 2019 - 5 Minuten
Zuverlässige Qualitätssicherung mit KI

Künstliche Intelligenz erobert nach und nach sämtliche Branchen – nicht zuletzt ist gerade die Logistik ein Bereich, in dem KI besonders stark zur Optimierung beitragen kann. Denn die Logistik bietet durch die...

Mehr lesen