Ich möchte die Imputationsstrategie mit mice
function aus mice
package erstellen. Das Problem ist, ich finde keine predict
Methoden (oder Cousins) für neue Daten in diesem Paket.
Ich möchte so etwas tun:
%Vor% Ich würde gerne einen Ansatz finden, der den obigen Code emuliert.
Nun ist es absolut möglich, mice
-Operationen auf train und test -Datensätzen separat zu machen, aber aus logischer Sicht scheint das inkorrekt zu sein - alle Informationen Sie befinden sich in dem Datensatz train . Beobachtungen aus test -Datensätzen sollten keine Informationen füreinander liefern. Dies gilt insbesondere im Umgang mit Daten, wenn Beobachtungen nach Erscheinungszeit geordnet werden können.
Ein möglicher Ansatz besteht darin, Zeilen aus test -Datensätzen iterativ zu train -Datensätzen hinzuzufügen, wobei die Imputation jedes Mal ausgeführt wird. Das scheint jedoch sehr unelegant.
Hier ist die Frage:
Gibt es eine Methode für das Paket mice
, die der allgemeinen Methode predict
ähnelt? Wenn nicht, was sind die möglichen Problemumgehungen?
Danke!
Ich denke, es könnte logisch falsch sein, fehlende Werte mit einem anderen imputierten Datensatz "vorherzusagen", da der MICE-Algorithmus Modelle iterativ erstellt, um die fehlenden Werte anhand der beobachteten Werte in Ihrem gegebenen Datensatz zu schätzen.
Mit anderen Worten, wenn Sie mice_object <- mice(train_boys)
ausführen, schätzt der Algorithmus die NAs durch die Beziehungen zwischen den Variablen in train_boys
. Eine solche Schätzung kann jedoch nicht auf test_boy
angewendet werden, da sich die Beziehungen zwischen Variablen in test_boy
von denen in train_boy
unterscheiden können. Außerdem ist die Menge der beobachteten Informationen zwischen diesen beiden Datensätzen unterschiedlich.
Wenn Sie glauben, dass die Beziehungen zwischen den Variablen in train_boys
und test_boys
homogen sind, wie wäre es dann mit der NA-Imputation , bevor die Datenmenge geteilt wird? d.h.:
Sie können lesen Mehrfachimputation durch verkettete Gleichungen: Was ist das und wie funktioniert es? wenn Sie mehr Informationen von MICE benötigen.