Ich versuche Clustering in Python mit zufälligen Forests durchzuführen. In der R-Implementierung von Random Forests gibt es ein Flag, das Sie festlegen können, um die Näherungsmatrix zu erhalten. Ich kann nichts Ähnliches in der Python Scikit Version von Random Forest finden. Weiß jemand, ob es eine äquivalente Berechnung für die Python-Version gibt?
Wir implementieren (noch) keine Näherungsmatrix in Scikit-Learn.
Dies könnte jedoch erreicht werden, indem man sich auf die Funktion apply
stützt, die in unserer Implementierung von Entscheidungsbäumen bereitgestellt wird. Das heißt, für alle Musterpaare in Ihrem Dataset durchlaufen Sie die Entscheidungsbäume in der Gesamtstruktur (über forest.estimators_
) und zählen, wie oft sie in dasselbe Blatt fallen, dh wie oft apply
das gibt gleiche Knoten-ID für beide Stichproben in dem Paar.
Hoffe, das hilft.
Tags und Links python scikit-learn random-forest