Ich arbeite an der Random Forest Klassifikation.
Ich habe festgestellt, dass cforest im "party" -Paket normalerweise besser abschneidet als "randomForest".
Es schien jedoch, dass cforest leicht überanstrengt.
Hier ist ein zufälliger Datensatz, der die Antwort des binären Faktors und 10 numerische Variablen enthält, die aus rnorm () generiert wurden.
%Vor%Führen Sie cforest aus, indem Sie unvoreingenommene Parameter verwenden (vielleicht empfohlen).
%Vor%Ziemlich gute Vorhersage-Performance für bedeutungslose Daten.
Auf der anderen Seite geht RandomForest ehrlich.
%Vor%Woher kommen diese Unterschiede? Ich habe Angst, dass ich Cforest falsch benutze.
Lassen Sie mich einige zusätzliche Beobachtungen in cforest:
Ich würde Ihre Hinweise begrüßen.
Einige haben sich gewundert, warum ein Trainingsdatensatz auf die Vorhersagefunktion () angewendet wurde.
Ich habe keinen Testdatensatz erstellt, da die Vorhersage für OOB-Stichproben durchgeführt wurde, was für Cforest nicht galt.
cf Ссылка
Sie können nichts über die wahre Leistung eines Klassifikators erfahren, indem Sie seine Leistung auf dem Trainingssatz studieren. Darüber hinaus, da es kein echtes Muster zu finden gibt, kann man nicht wirklich sagen, ob es schlechter ist, sich wie cforest
zu überziehen, oder zufällig wie randomForest
zu raten. Alles, was Sie sagen können, ist, dass die beiden Algorithmen unterschiedliche Strategien verfolgten, aber wenn Sie sie auf neuen ungesehenen Daten testen würden, würden beide wahrscheinlich scheitern.
Die only Möglichkeit, die Leistung eines Klassifikators abzuschätzen, besteht darin, ihn auf externen Daten zu testen, die nicht Teil des Trainings waren, in einer Situation, in der Sie wissen, dass ein Muster zu finden ist.
Einige Kommentare:
Tags und Links r random-forest