Ich sehe ein Beispiel in der alt-mittleren Prüfung von der bekannten Person Tom Mitchell
, wie folgt:
%Vor%Ziehen Sie in Betracht, einen Klassifikator in einer Situation mit insgesamt 1000 Merkmalen zu lernen. 50 von ihnen sind wirklich informativ über den Unterricht. Weitere 50 Funktionen sind direkte Kopien der ersten 50 Features. Die letzten 900 Features sind nicht informativ. Angenommen, es gibt genügend Daten, um zuverlässig zu beurteilen, wie nützlich sie sind Features sind, und die Feature-Auswahl-Methoden verwenden gute Schwellenwerte.
Lösung: 100
%Vor%Lösung: 50
Meine Herausforderung ist, wie diese Lösung erreicht wird? Ich versuche es sehr, kann aber die dahinter stehende Idee nicht verstehen.
Gegenseitige Information Feature-Auswahl bewertet die Kandidatur jedes Features unabhängig . Da es im Wesentlichen 100 Funktionen gibt, die wirklich informativ sind, werden wir mit 100 Funktionen durch gegenseitige Informationsfilterung enden.
%Vor% Eine Wrapper-Methode wertet eine Teilmenge von Features aus, sodass die Interaktionen zwischen Features berücksichtigt werden. Da 50 Features direkte Kopien der anderen 50 Features sind, kann die Wrappermethode herausfinden, dass auf die ersten 50 Features konditioniert ist, der zweite Satz aus 50 Features fügt keine zusätzlichen Informationen hinzu überhaupt. Wir haben nach Filterung 50 Funktionen erhalten. Angenommen, der erste Satz von 50 Features ist A1, A2, ..., A50
und die Kopie der 50 Features sind C1, C2, ..., C50
. Das Endergebnis ausgewählter Features könnte wie folgt aussehen:
Daher sollte jedes eindeutige -Feature nur einmal vorkommen (entweder aus dem Feature-Set von A
oder aus dem Feature-Set von C
).
Wie viele Funktionen werden durch gegenseitige Informationsfilterung ausgewählt?
Wenn wir uns die Fragebeschreibung ansehen, sollten wir nur 50 Funktionen ausgewählt haben. Diese Filterung basiert jedoch auf der Korrelation mit der zu prognostizierenden Variablen. Und einer der Hauptnachteile der gegenseitigen Informationsfilterung ist, sie neigen dazu, redundante Variablen auszuwählen, weil sie die Beziehungen zwischen Variablen nicht berücksichtigen.
Wie viele Features werden von einer Wrapper-Methode ausgewählt?
Betrachten Sie es als einen heuristischen Suchansatz des Raums aller möglichen Merkmalsteilmengen. Definitionsgemäß bewertet eine Wrapper-Methode eine Teilmenge von Features, sodass die Interaktionen zwischen Features berücksichtigt werden.
Beispiel: Hill Climbing, d. h. Hinzufügen von Features nacheinander, bis keine weitere Verbesserung mehr möglich ist.
Da wir 50 Funktionen haben, die die meisten Informationen enthalten, sind andere 50 Kopien der früheren und 900 Funktionen keine oder keine. Deshalb bekommen wir nur 50 Features.