Was ist die theoretische Grundlage für den Dummy-Klassifikator scikit-learn?

8

In der Dokumentation habe ich gelesen, dass ein Dummy-Klassifikator verwendet werden kann Testen Sie es gegen einen Klassifikationsalgorithmus.

  

Dieser Klassifikator ist nützlich als einfache Vergleichsbasis für andere   (echte) Klassifikatoren. Benutze es nicht für echte Probleme.

Was macht der Dummy-Klassifikator, wenn er die geschichtete Approach verwendet. Ich weiß, dass die Dokumentation sagt:

  

generiert Vorhersagen, indem es die Klasse des Trainingssatzes respektiert   Verteilung.

Könnte mir jemand eine theoretischere Erklärung geben, warum dies ein Beweis für die Leistung des Klassifikators ist?

    
john doe 04.04.2015, 02:00
quelle

2 Antworten

14

Der Dummy-Klassifikator gibt Ihnen ein Maß für die "Grundlinien" -Leistung - d. die Erfolgsrate, die man erwarten sollte, selbst wenn man nur rät.

Angenommen, Sie möchten bestimmen, ob ein bestimmtes Objekt eine bestimmte Eigenschaft besitzt oder nicht. Wenn Sie eine große Anzahl dieser Objekte analysiert haben und festgestellt haben, dass 90% die Zieleigenschaft enthalten, können Sie mit einer Schätzung der Wahrscheinlichkeit, dass jede zukünftige Instanz des Objekts die Zieleigenschaft besitzt, eine Wahrscheinlichkeit von 90% richtig erraten. Das Strukturieren Ihrer Vermutungen auf diese Weise entspricht der Verwendung der Methode most_frequent in der von Ihnen zitierten Dokumentation.

Da viele maschinelle Lernaufgaben versuchen, die Erfolgsrate von (z. B.) Klassifizierungsaufgaben zu erhöhen, kann das Bewerten der Basislinienerfolgsrate einen Mindestwert für den Minimalwert liefern, den der Klassifikator seines Werts übertreffen sollte. In der oben diskutierten Hypothese sollte Ihr Klassifikator eine Genauigkeit von mehr als 90% erhalten, da 90% die Erfolgsrate ist, die selbst "Dummy" -Klassifikatoren zur Verfügung steht.

Wenn man einen Dummy-Klassifikator mit dem Parameter stratified unter Verwendung der oben diskutierten Daten trainiert, wird dieser Klassifikator vorhersagen, dass es eine 90% ige Wahrscheinlichkeit gibt, dass jedes Objekt, auf das es trifft, die Zieleigenschaft besitzt. Dies unterscheidet sich vom Trainieren eines Dummy-Klassifikators mit dem Parameter most_frequent , da dieser erraten würde, dass alle zukünftigen Objekte die Zieleigenschaft besitzen. Hier ist ein Code zur Veranschaulichung:

%Vor%     
duhaime 04.04.2015, 03:25
quelle
0

Eine Hauptmotivation für Dummy Classifier ist der F-Score, wenn die positive Klasse in der Minderheit ist (d. h. unausgewogene Klassen). Dieser Klassifikator wird für den Integritätstest des tatsächlichen Klassifikators verwendet. Tatsächlich ignoriert Dummy-Klassifizierer die Eingabedaten vollständig. Bei der "häufigsten" Methode wird das Auftreten der häufigsten Etiketten überprüft.

    
Avi 05.11.2017 17:04
quelle