Ich habe Folgendes in der Dokumentation von randomForest
gelesen:
strata: Eine (Faktor-) Variable, die für geschichtete Stichproben verwendet wird.
sampsize: Größe (n) der zu zeichnenden Probe. Zur Klassifizierung, wenn sampsize ist ein Vektor der Länge die Anzahl der Schichten, dann Probenahme wird durch Schichten und die Elemente von sampsize geschichtet Geben Sie die Zahlen an, die aus den Schichten gezogen werden sollen.
Als Referenz ist die Schnittstelle zu der Funktion gegeben durch:
%Vor% Meine Frage ist: Wie genau würde man strata
und sampsize
verwenden? Hier ist ein minimales Arbeitsbeispiel, in dem ich diese Parameter testen möchte:
Ich komme zu diesen Parametern, da ich möchte, dass RF Bootstrap-Samples verwendet, die den Anteil von Positiven an Negativen in meinen Daten berücksichtigen.
Dieser andere Thread , begann eine Diskussion über die Thema, aber es wurde festgelegt, ohne zu klären, wie man diese Parameter verwenden würde.
Wäre das nicht einfach so etwas wie:
%Vor% Ich habe ..., strata=iristype
und ..., strata='iristype'
versucht, aber offensichtlich wurde der Code nicht geschrieben, um diesen Wert in der Umgebung des Arguments 'data' zu interpretieren. Ich habe die Ergebnisvariable verwendet, weil sie die einzige Faktorvariable in diesem Datensatz ist, aber ich denke nicht, dass sie die Ergebnisvariable sein muss. In der Tat denke ich, dass es definitiv NICHT die Ergebnisvariable sein sollte. Von diesem speziellen Modell wird erwartet, dass es nutzlose Ausgaben produziert und nur der Testsyntax präsentiert wird.
Tags und Links r