Proximitätsmatrix in sklearn.ensemble.RandomForestClassifier

9

Ich versuche Clustering in Python mit zufälligen Forests durchzuführen. In der R-Implementierung von Random Forests gibt es ein Flag, das Sie festlegen können, um die Näherungsmatrix zu erhalten. Ich kann nichts Ähnliches in der Python Scikit Version von Random Forest finden. Weiß jemand, ob es eine äquivalente Berechnung für die Python-Version gibt?

    
WtLgi 09.09.2013, 16:49
quelle

3 Antworten

12

Wir implementieren (noch) keine Näherungsmatrix in Scikit-Learn.

Dies könnte jedoch erreicht werden, indem man sich auf die Funktion apply stützt, die in unserer Implementierung von Entscheidungsbäumen bereitgestellt wird. Das heißt, für alle Musterpaare in Ihrem Dataset durchlaufen Sie die Entscheidungsbäume in der Gesamtstruktur (über forest.estimators_ ) und zählen, wie oft sie in dasselbe Blatt fallen, dh wie oft apply das gibt gleiche Knoten-ID für beide Stichproben in dem Paar.

Hoffe, das hilft.

    
Gilles Louppe 10.09.2013, 12:42
quelle
0

In Python ist derzeit nichts implementiert. Ich versuchte es zuerst hier . Es wäre großartig, wenn jemand daran interessiert wäre, diese Methoden zum Scikit hinzuzufügen.

    
Keith 25.04.2017 21:23
quelle
0

Basierend auf Gilles Louppe Antwort habe ich eine Funktion geschrieben. Ich weiß nicht, ob es effektiv ist, aber es funktioniert. Beste Grüße.

%Vor%     
Vyga 20.12.2017 14:10
quelle