Ich baue einen binären Klassifikationsbaum, indem ich den gegenseitigen Informationsgewinn als Splitting-Funktion verwende. Da die Trainingsdaten jedoch in Richtung einiger Klassen verschoben sind, ist es ratsam, jedes Trainingsbeispiel mit der inversen Klassenhäufigkeit zu bewerten.
Wie gewichte ich die Trainingsdaten? Wenn ich die Wahrscheinlichkeiten zur Schätzung der Entropie berechne, nehme ich gewichtete Mittelwerte an?
EDIT: Ich möchte einen Ausdruck für Entropie mit den Gewichten.
Staatlich gewichtete Entropie als Maß für das Investitionsrisiko.
Ссылка
Der Wikipedia-Artikel, den du zitiertest, geht in die Gewichtung ein. Es sagt:
Gewichtete Varianten
In der traditionellen Formulierung der gegenseitigen Information,
Jedes durch (x, y) spezifizierte Ereignis oder Objekt wird mit der entsprechenden Wahrscheinlichkeit p (x, y) gewichtet. Dies setzt voraus, dass alle Objekte oder Ereignisse bis auf ihre Eintrittswahrscheinlichkeit äquivalent sind. In einigen Anwendungen kann es jedoch vorkommen, dass bestimmte Objekte oder Ereignisse signifikanter sind als andere oder dass bestimmte Assoziationsmuster semantisch wichtiger sind als andere.
Zum Beispiel kann das deterministische Mapping {(1,1), (2,2), (3,3)} als stärker angesehen werden als das deterministische Mapping {(1,3), ( 2,1), (3,2)}, obwohl diese Beziehungen die gleiche gegenseitige Information ergeben würden. Dies liegt daran, dass die gegenseitige Information überhaupt nicht auf eine inhärente Ordnung in den variablen Werten empfindlich ist (Cronbach 1954, Coombs & amp; Dawes 1970, Lockhead 1970) und daher überhaupt nicht empfindlich für die Form der Beziehungsabbildung zwischen den zugehörigen Werten ist Variablen. Wenn es gewünscht wird, dass die frühere Beziehung - die eine Übereinstimmung über alle Variablenwerte zeigt - stärker beurteilt wird als die spätere Beziehung, dann ist es möglich, die folgende gewichtete gegenseitige Information zu verwenden (Guiasu 1977)
, das ein Gewicht w (x, y) auf die Wahrscheinlichkeit jedes Co-Auftretens von Variablenwerten setzt, p (x, y). Dies erlaubt, dass bestimmte Wahrscheinlichkeiten mehr oder weniger Bedeutung haben als andere und erlauben so die Quantifizierung relevanter holistischer oder prägnanter Faktoren. Im obigen Beispiel hätte die Verwendung größerer relativer Gewichte für w (1,1), w (2,2) und w (3,3) den Effekt, eine größere Aussagekraft für die Beziehung {(1,1), ( 2,2), (3,3)} als für die Beziehung {(1,3), (2,1), (3,2)}, was in einigen Fällen der Mustererkennung und dergleichen wünschenswert sein kann.
Tags und Links machine-learning decision-tree entropy