Data Mining im KDD Environment

1996 hat Osama Fayyad einen sehr populären Prozess vorgestellt, wie Firmen aus ihren Daten sinnvolle Informationen generieren können. Dieser KDD Standard hat sich seitdem als eine Art Basis der Datenaufbereitung etabliert – auch in der Praxis. Dieser Artikel gibt Auskunft warum Data Mining ein Vorverarbeitung und eine Nachbearbeitung benötigt und warum es alleine nicht funktioniert.

Der Ansatz, Wissen aus Daten zu ziehen, wurde von Fayyad in individuelle Schritte unterteilt. Für jeden Schritt werden verschiedene Tools benötigt, und unterschiedliche Zustände der Daten kommen dabei heraus.

Fayyad1996-300x141 in Data Mining im KDD Environment

KDD Prozess von Fayyad 1996

KDD steht für „Knowledge Discovery in Databases„. Laut Fayyad gibt es folgende Schritte: Selection, Pre-processing, Transformation, Data Mining und Interpretation. Diese fünf Schritte werden iterativ durchlaufen. Jeder Schritt kann also Arbeitsschritt gesehen werden, wo der Einfluß des Benutzer zu unterschiedlichen Ergebnissen führen kann. Das beste Ergebnis wird dann für den nächsten Schritt gewählt, die anderen werden dokumentiert.

Fünf Schritte des KDD nach Fayyad

Hier die einzelnen Schritte:

  1. Im Selection-Schrittt wird wichtige Information ausgewählt oder erstellt. Im folgenden baut alles auf dieser Information auf, also ist es wichtig das nur relevante Information gesammelt wird. Dieser Schritt bedeutet auch, das „Meta-Information“ verstanden wird. Also, worum geht es eigentlich? Was ist das Ziel? Wo befinden wir uns datentechnisch? Welche besonderen Bedeutung sind in den Daten verborgen die man verstehen muss? Auch Daten-Kompatibilität wird schon an diesem Punkt wichtig.
  2. Um gute Ergebnisse im Data Mining zu erzielen, ist es wichtig bereits am Anfang die Daten gut vorbereitet zu haben. Daher werden im Pre-processing die Daten auf einen homogenen Stand gebracht. Rauschen und Unschärfen werden entfernt. Fehlende Werte werden behandelt, falsche Daten und Ausreißer erkannt und bereinigt. Auch können neue Attribute aus anderen abgeleitet werden.
  3. Damit Data Mining die Daten „verstehen“ kann, müssen die Daten in einem bestimmten Format vorliegen. Im Arbeitsschritt der  Transformation werden die Daten umgewandelt. Im Unterschied zum Pre-Processing geht hier aber in der Regel keine Information verloren – sondern im Gegensatz sie wird „leichter fassbar“ für Data Mining, zum Beispiel durch Aggregationen. Manchmal kann es dennoch sinnvoll sein, nur die wichtigsten Daten zu selektieren und so die Daten zu reduzieren.
  4. Im Data Mining wird die Data Mining Technik angewandt. Fayyad gibt einen guten Überblick, aber diese Techniken sind nun vielfach überarbeitet und verbessert worden. Aus dem Data Mining Schritt kommt in der Regel ein Ergebnis, das ohne Hintergrundwissen nicht verstanden werden kann.  Fayyad nennt das Ergebnis „erkannte Muster“.
  5. Im interpretation Schritt wird herausgefunden ob denn die „erkannten Muster“ relevant sind. Information ist nur dann nützlich, wenn es neu und brauchbar ist. Also wird das Ergebnis im Kontext des Hintergrundwissens interpretiert und geprüft – evaluiert. Sind die Ergebnisse brauchbar, werden sie ansprechend präsentiert. Das beste Ergebnis nutzt nichts, wenn es nicht Management tauglich kommuniziert wurde – dann wird es nämlich „aus formalen Gründen“ abgelehnt. Falls das Ergebnis nicht gut genug ist, wird Schrittweise wieder zurückgefallen – ggf. bis zum ersten Schritt – der Datenselektion.

Die Ergebnisse fließen in der Regel in ein Decision Support System (DSS) oder direkt in geschlossene (z.B. Marketing-) Automation Prozesse ein, wo sie nicht mehr als „Ergebnis“ wichtig werden sondern nur eine Verbesserung bewirken. Dann wird die Verbesserung gemessen, um den Erfolg des Data Mining zu überprüfen.

Andere Ansätze für Prozesse

Crisp-300x272 in Data Mining im KDD Environment

CRISP-DM

Andere Prozesse für die Datennutzung in Unternehmen folgen im wesentlich dem Vorschlag von Fayyad – und sind nur modifiziert worden. Nur ein systematische Prozess erlaubt es, Data Mining erfolgreich anzuwenden. So wurd von der Firma SPSS der „Fünf-A“ Vorschlag kommuniziert, oder „SEMMA„, von der Firma SAS zum Gebrauch im Enterprise Miner. (Die“5A’s“ von SPSS waren Assess, Access, Analyze, Act und Automate – sie werden aber nicht mehr oft benutzt seit SPSS von IBM gekauft wurde,  „SEMMA“ von SAS steht für Sample, Explore, Modify, Model, Assess.) Der Cross-Industry Standard Process for Data Mining, oder „CRISP-DM“ ist auch ein sehr guter Ansatz die Daten aufzubereiten um Data Mining anwenden zu können. Hier wird gerade an einer neuen Version gearbeitet.

Data Mining braucht also immer eine Vorbereitung der Daten – und nach der Anwendung muss das Ergebnis interpretiert und verstanden werden. In vielen Fällen ist das trivial und kann automatisiert geschehen. Aber es muss konsequent beachtet werden das nur so die großen Vorteile von Data Mining genutzt werden können!

3 Kommentare zu Data Mining im KDD Environment

Antwort verfassen

 

 

 

Diese HTML Tags sind erlaubt

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>