In der Dokumentation habe ich gelesen, dass ein Dummy-Klassifikator verwendet werden kann Testen Sie es gegen einen Klassifikationsalgorithmus.
Dieser Klassifikator ist nützlich als einfache Vergleichsbasis für andere (echte) Klassifikatoren. Benutze es nicht für echte Probleme.
Was macht der Dummy-Klassifikator, wenn er die geschichtete Approach verwendet. Ich weiß, dass die Dokumentation sagt:
generiert Vorhersagen, indem es die Klasse des Trainingssatzes respektiert Verteilung.
Könnte mir jemand eine theoretischere Erklärung geben, warum dies ein Beweis für die Leistung des Klassifikators ist?
Der Dummy-Klassifikator gibt Ihnen ein Maß für die "Grundlinien" -Leistung - d. die Erfolgsrate, die man erwarten sollte, selbst wenn man nur rät.
Angenommen, Sie möchten bestimmen, ob ein bestimmtes Objekt eine bestimmte Eigenschaft besitzt oder nicht. Wenn Sie eine große Anzahl dieser Objekte analysiert haben und festgestellt haben, dass 90% die Zieleigenschaft enthalten, können Sie mit einer Schätzung der Wahrscheinlichkeit, dass jede zukünftige Instanz des Objekts die Zieleigenschaft besitzt, eine Wahrscheinlichkeit von 90% richtig erraten. Das Strukturieren Ihrer Vermutungen auf diese Weise entspricht der Verwendung der Methode most_frequent
in der von Ihnen zitierten Dokumentation.
Da viele maschinelle Lernaufgaben versuchen, die Erfolgsrate von (z. B.) Klassifizierungsaufgaben zu erhöhen, kann das Bewerten der Basislinienerfolgsrate einen Mindestwert für den Minimalwert liefern, den der Klassifikator seines Werts übertreffen sollte. In der oben diskutierten Hypothese sollte Ihr Klassifikator eine Genauigkeit von mehr als 90% erhalten, da 90% die Erfolgsrate ist, die selbst "Dummy" -Klassifikatoren zur Verfügung steht.
Wenn man einen Dummy-Klassifikator mit dem Parameter stratified
unter Verwendung der oben diskutierten Daten trainiert, wird dieser Klassifikator vorhersagen, dass es eine 90% ige Wahrscheinlichkeit gibt, dass jedes Objekt, auf das es trifft, die Zieleigenschaft besitzt. Dies unterscheidet sich vom Trainieren eines Dummy-Klassifikators mit dem Parameter most_frequent
, da dieser erraten würde, dass alle zukünftigen Objekte die Zieleigenschaft besitzen. Hier ist ein Code zur Veranschaulichung:
Eine Hauptmotivation für Dummy Classifier ist der F-Score, wenn die positive Klasse in der Minderheit ist (d. h. unausgewogene Klassen). Dieser Klassifikator wird für den Integritätstest des tatsächlichen Klassifikators verwendet. Tatsächlich ignoriert Dummy-Klassifizierer die Eingabedaten vollständig. Bei der "häufigsten" Methode wird das Auftreten der häufigsten Etiketten überprüft.
Tags und Links python machine-learning artificial-intelligence scikit-learn svm