Überrepräsentation

Nadel in Überrepräsentation - Oversampling

Die Nadel im Heuhafen - leider typisch für Data Mining

Um das Data Mining Ergebnis bei seltener Zielvariable zu verbessern, empfiehlt es sich die Zielvariable  stärker zu gewichten.  Hier wird gezeigt wie das geht – wann man es macht und wie man die Überrepräsentation wieder zurück rechnet.

Um ein besseres Ergebnis zu erhalten wenn die Zielvariable nur selten oder sehr selten vorkommt (das ist der Fall bei einem Anteil von <10%), empfiehlt es sich generell die Zielvariable im Datenbestand über-zu-repräsentieren. Dies sollte in der Regel immer das Modell verbessern. Man spricht bei SAS von „Oversampling“ – es gibt aber andere Bedeutungen für diesen Begriff. Während bei SAS davon gesprochen wird, wenn man das Auftreten einer Zielvariable „relativ“ zum Gesamten erhöht in dem man die Nicht-Zielvariable entfernt, kann es auch bedeuten die Zielvariable durch kopieren zu vermehren (Redundanz). Wir bleiben hier bei der SAS-Sichtweise für Data Mining.

Vorher:

10% Zielvariable mit 10.000 Datensätzen (echter Anteil = 0,1)
90% Nicht-Zielvariable mit 90.000 Datensätzen
100% Gesamt mit 100.000 Datensätzen

D.h. wenn das Target zuvor nur 10% des Datenbestandes ausmacht, wird ein Sample erzeugt bei dem dann durch Überrepräsentation der Zielvariable eine 50%/50% Verteilung von Zielvariable und Nicht-Zielvariable vorliegt. Das ist leicht zu machen, zu diesem Zweck nimmt man einfach die 10% Zielvariablen vollständig und von den 90% Nicht-Zielvariablen statistisch zufällig soviele Datensätze, das sie mengenmäßig den 10% entsprechen.

Nachher:

50% Zielvariable mit 10.000 Datensätzen (überrepräsentierter Anteil = 0,5)
50% Nicht-Zielvariable mit 10.000 Datensätzen
100% Gesamt mit 20.000 Datensätzen

Auf diesem Flatfile wendet man sein Data Mining an, und bekommt als Ergebnis ein Scoring-Modell, das die Eintrittswahrscheinlichkeit für die Zielvariable bestimmen kann.

Diese Eintrittswahrscheinlichkeit bezieht sich allerdings NICHT auf das eigentliche ursprüngliche Ereignis, sondern auf die Überrepräsentierte Menge!

Will man dem Kunden die wirkliche Eintrittswahrscheinlichkeit präsentieren, muss man die Überrepräsentation zurückrechnen.

Überrepräsentation zurückrechnen

Das geht so:

Wirkliche Eintrittswahrscheinlichkeit =
1/(1+(1/echter Anteil-1)/(1/überrepräsentierter Anteil-1)*(1/Ergebnis aus Scoring-1));

Das ganze sieht als Formel so aus:

Ueberrepraesentation Zurueck in Überrepräsentation - Oversampling

Überrepräsentation zurückrechnen

Die Formel in SAS Base:

FIXED_p_scoring1 = 1/(1+(1/0.1-1)/(1/0.51)*(1/p_scoring1-1));

FIXED_p_scoring0 = 1/(1+(1/0.91)/(1/0.51)*(1/p_scoring0-1));

Übrigens: will man eh nur die TOP xy% einer nach Wahrscheinlichekit sortierten gescorten Menge auswählen, ist die Rückrechnung nicht nötig – denn es ist eine linare Transformation – darum kann man auch die ursprünglichen Eintrittswahrscheinlichkeiten aus der Überrepräsentation nehmen. Die Reihenfolge ändert sich durch die Rückrechnung nicht! Die Rückrechnung dient also im wesentlichen nur der Transparenz in der Kommunikation mit dem Kunden.

Den Einsatz gut abwägen und Faustregeln beachten

Den Einsatz einer Überrepäsentation muss man allerdings immer genau abwägen. Schließlich verliert man mit dem „Entfernen“ eines Teils der Nicht-Zielvariable unter Umständen relevante Informationen. Dies verschlechtert das Modell nur dann nicht, wenn die reduzierte Menge die Gesamtmenge statistisch repräsentieren kann.

Also wieviel und wann soll man überrepäsentieren?

Als Faustregel empfehle ich:

5-10% Zielvariable mit mehr als 10.000 Datensätzen: 50/50 Überrepräsentation

<5% Zielvariable mit mehr als 10.000 Datensätzen: 30/70 Überrepräsentation (also 30% Zielvariable und 70% Nicht-Zielvariable)

<5% Zielvariable mit weniger als 10.000 Datensätzen: Gesamtbestand sollte 20.000 Datensätze nicht unterschreiten, also so weit überrepräsentieren, das Zielvariable so häufig wie möglich vorkommt, aber in der Summe von Zielvariable und Nicht-Zielvariable noch mindestens 20.000 Datensätze übrig bleiben.

So haben sich in der Praxis z.B. bei Direktmarketing Aufgaben im CRM die besten Ergebnisse ergeben. Hier war beispielsweise die Zielvariable nur mit 3% vertreten – dennoch konnte nach Überrepräsentation eine 5-fach höhere Responsequote gegenüber einer Testgruppe erreicht werden.

Also nicht aufgeben, auch wenn die Zielvariable mal wieder dünn gesiedelt ist. Wenn das Heu reduziert wird, sind gleich viel mehr Nadeln da!

Antwort verfassen

 

 

 

Diese HTML Tags sind erlaubt

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>