parallele Generierung von zufälligen Gesamtstrukturen mit scikit-learn

8

Hauptfrage: Wie kombiniere ich verschiedene randomForest in python und scikit-learn?

Ich verwende derzeit das randomForest-Paket in R, um Randomforest-Objekte mithilfe von Elastic Map Reduce zu generieren. Dies soll ein Klassifizierungsproblem beheben.

Da meine Eingabedaten zu groß sind, um in den Speicher auf einer Maschine zu passen, nehme ich die Daten in kleinere Datensätze auf und erzeuge ein zufälliges Gesamtstrukturobjekt, das eine kleinere Gruppe von Bäumen enthält. Ich kombiniere dann die verschiedenen Bäume miteinander unter Verwendung einer modifizierten Kombinationsfunktion, um ein neues zufälliges Waldobjekt zu erzeugen. Dieses zufällige Gesamtstrukturobjekt enthält die Feature-Wichtigkeit und den endgültigen Satz von Bäumen. Dies beinhaltet nicht die oob Fehler oder Stimmen der Bäume.

Obwohl dies in R gut funktioniert, möchte ich in Python dasselbe mit scikit-learn tun. Ich kann verschiedene zufällige Waldobjekte erstellen, aber ich habe keine Möglichkeit, sie zu einem neuen Objekt zu kombinieren. Kann mir jemand auf eine Funktion hinweisen, die die Wälder kombinieren kann? Ist das mit scikit-learn möglich?

Hier ist der Link zu einer Frage, wie dieser Prozess in R: Kombinieren von Zufallswäldern, die mit verschiedenen Trainingssätzen in R erstellt wurden .

Bearbeiten: Das resultierende zufällige Gesamtstrukturobjekt sollte die Bäume enthalten, die für die Vorhersage und auch für die Merkmalsbedeutung verwendet werden können.

Jede Hilfe wäre willkommen.

    
reddy 18.09.2014, 13:39
quelle

2 Antworten

8

Sicher, sammeln Sie einfach alle Bäume, schauen Sie sich beispielsweise diesen Ausschnitt aus pyrallel an :

%Vor%     
ogrisel 19.09.2014, 03:29
quelle
2

Basierend auf Ihrer Bearbeitung klingt es so, als wollten Sie nur herausfinden, wie Sie die Wichtigkeit von Features extrahieren und sich die einzelnen Bäume ansehen, die in einer zufälligen Gesamtstruktur verwendet werden. Wenn dies der Fall ist, sind beide Attribute Ihres zufälligen Gesamtstrukturmodells mit dem Namen "feature_importances_" bzw. "estimators_". Ein Beispiel, das dies veranschaulicht, finden Sie unten:

%Vor%     
David 18.09.2014 20:36
quelle