Verschiedene Versionen von sklearn geben ganz unterschiedliche Trainingsergebnisse

9

Wir haben unser Sklearn vom alten 0,13-Git auf 0,14.1 aufgerüstet und haben festgestellt, dass sich die Leistung unseres Klassifikators für die logistische Regression ziemlich verändert hat. Die beiden Klassifikatoren, die mit den gleichen Daten trainiert wurden, haben unterschiedliche Koeffizienten und ergeben daher oft unterschiedliche Klassifikationsergebnisse.

Als Experiment habe ich 5 Datenpunkte (hochdimensional) verwendet, um den LR-Klassifikator zu trainieren, und die Ergebnisse sind:

0.13-Git:

%Vor%

0.14.1:

%Vor%

Ich würde sagen, der Unterschied ist ziemlich groß, im Bereich von 10 ^ (- 2). Offensichtlich sind die Daten, die ich hier verwendet, nicht ideal, weil die Dimensionalität der Merkmale viel größer ist als die Anzahl der Einträge. In der Praxis ist dies jedoch häufig der Fall. Hat es etwas mit der Auswahl von Features zu tun? Wie kann ich die Ergebnisse so machen wie zuvor? Ich verstehe, dass die neuen Ergebnisse nicht unbedingt schlechter sind als vorher, aber jetzt liegt der Fokus darauf, sie so konsistent wie möglich zu machen. Danke.

    
ymeng 18.04.2015, 18:46
quelle

1 Antwort

2

Hier ist ein Kommentar zur Version 0.13 von der neuen Seite :

%Vor%

Die Beschreibung des Updates bezieht sich jedoch auf die Version 0.13, keine höhere Version. Sie erwähnen, dass Sie die Version 0.13-git verwendet haben, vielleicht haben Sie eine Vorabversion der Version 0.13 verwendet, in der das Feature nicht bearbeitet wurde: Auf diese Weise könnte das Update relativ zu Ihrem Problem sinnvoll sein.

Wenn Sie sich Ihre Koeffizienten ansehen, sind sie in der neuen Version niedriger, was mit der Beschreibung des Updates, die besagt, dass die Gewichte ursprünglich gesenkt wurden, ein wenig Sinn ergibt.

Vielleicht möchtest du deine neuen LogisticRegression(...) Parameter ändern und versuchen, die Dinge etwas anzupassen.

    
Guillaume Chevalier 16.09.2015, 00:55
quelle