Geschichtete Stichproben mit Random Forests in R

8

Ich habe Folgendes in der Dokumentation von randomForest gelesen:

  

strata: Eine (Faktor-) Variable, die für geschichtete Stichproben verwendet wird.

     

sampsize: Größe (n) der zu zeichnenden Probe. Zur Klassifizierung, wenn sampsize             ist ein Vektor der Länge die Anzahl der Schichten, dann Probenahme             wird durch Schichten und die Elemente von sampsize geschichtet             Geben Sie die Zahlen an, die aus den Schichten gezogen werden sollen.

Als Referenz ist die Schnittstelle zu der Funktion gegeben durch:

%Vor%

Meine Frage ist: Wie genau würde man strata und sampsize verwenden? Hier ist ein minimales Arbeitsbeispiel, in dem ich diese Parameter testen möchte:

%Vor%

Ich komme zu diesen Parametern, da ich möchte, dass RF Bootstrap-Samples verwendet, die den Anteil von Positiven an Negativen in meinen Daten berücksichtigen.

Dieser andere Thread , begann eine Diskussion über die Thema, aber es wurde festgelegt, ohne zu klären, wie man diese Parameter verwenden würde.

    
Amelio Vazquez-Reina 12.02.2013, 21:21
quelle

1 Antwort

7

Wäre das nicht einfach so etwas wie:

%Vor%

Ich habe ..., strata=iristype und ..., strata='iristype' versucht, aber offensichtlich wurde der Code nicht geschrieben, um diesen Wert in der Umgebung des Arguments 'data' zu interpretieren. Ich habe die Ergebnisvariable verwendet, weil sie die einzige Faktorvariable in diesem Datensatz ist, aber ich denke nicht, dass sie die Ergebnisvariable sein muss. In der Tat denke ich, dass es definitiv NICHT die Ergebnisvariable sein sollte. Von diesem speziellen Modell wird erwartet, dass es nutzlose Ausgaben produziert und nur der Testsyntax präsentiert wird.

    
42- 12.02.2013, 21:43
quelle

Tags und Links