Ich habe darüber nachgedacht, meine Frage in "Cross-Validated" zu stellen, habe mich aber entschieden, hierher zu kommen. Ich benutze die Funktion multinom () aus dem nnet-Paket, um die Wahrscheinlichkeit zu schätzen, arbeitslos oder arbeitslos zu werden, abhängig von Alter und Ausbildung. Ich brauche Hilfe bei der Interpretation.
Ich habe den folgenden Datensatz eines abhängigen kategorialen Variablen Beschäftigungsstatus (EmpSt) und zwei unabhängige kategorische Variablen: Alter (Alter) und Bildungsniveau (Bildung).
%Vor%Hier ist die Zusammenfassung mit den Ebenen:
%Vor%Ich möchte bestimmen, was die Schätzgleichung (Modell) für den Aufruf
ist df$EmpSt<-relevel(df$EmpSt,ref="Employed")
multinom(EmpSt ~ Age + Education,data=df)
damit ich es in meiner Forschungsarbeit aufschreiben kann. In meinem Verständnis ist Employeed die Basisebene und das Logit-Modell für diesen Aufruf ist:
Dabei sind i und n die Kategorien der Variablen Alter und Bildung (sorry für verwirrende Notation). Bitte korrigieren Sie mich, wenn mein Verständnis des von multinom () erstellten Logistikmodells falsch ist. Ich werde nicht die Zusammenfassung des Tests einschließen, weil es eine Menge Ausgabe ist, also unten schließe ich einfach die Ausgabe für den Aufruf >test
ein:
Da mein Verständnis des Logit-Modells, das von multinom () erstellt wurde, korrekt ist, sind die Koeffizienten die aufgezeichneten Odds, bei denen das Basis-Level verwendet wird. Um die tatsächlichen Quoten zu erhalten, logge ich mich mit dem Aufruf exp(coef(test))
an, was mir die tatsächlichen Chancen gibt:
was mich zu meiner nächsten Frage bringt.
Ich frage mich, ob es einen Weg gibt, die tatsächlichen Wahrscheinlichkeiten, arbeitslos oder abhängig von der Kombination von Alter und Bildung zu sein, zu erhalten, z. B. wie hoch ist die Wahrscheinlichkeit, arbeitslos zu sein, wenn ich 22 bin und ein Abitur habe. Entschuldigung für die lange Frage. Danke für Ihre Hilfe. Lassen Sie es mich wissen, wenn zusätzliche Klärung erforderlich ist.
Über Ihre erste Frage habe ich auch einige Zweifel über multinom
mit kategorischen Variablen (hier ist meine Frage: Multinom mit Matrix der Zählungen als Antwort ).
Wie ein Benutzer in dieser Frage und der von Ihnen geposteten Ausgabe von >test
geantwortet hat, denke ich, dass die von Ihnen geschriebene Mathematik teilweise richtig ist: In der Tat sollte ein multinomiales Modell nur funktionieren, wenn die Prädiktorvariablen kontinuierlich oder dichotom sind , mit Werten nur 0 oder 1), und wenn multinom
kategoriale Variablen als Prädiktoren erhält, wie in Ihrem Beispiel, konvertiert R
diese automatisch in Dummy-Variablen (nur 0 oder 1).
In Bezug auf Ihr Beispiel sollten wir, wenn wir nur den Prädiktor Age
betrachten, ln(\frac{Pr(unemployed)}{Pr(employed}) = \beta_0 + \beta_1*Age20-29 + \beta_2*Age30-39 + ...
und eine analoge Formel für Pr(not in labor force)
haben, aber mit anderen \beta
Koeffizienten.
Über Ihre zweite Frage: Ja, es gibt einen Weg. Verwenden Sie predict(test, newdata, "probs")
, wobei newdata
ein Array mit Age20-29
und High school graduates, no college
als Einträge (in Ihrem Beispiel) ist.
Tags und Links r probability logistic-regression multinomial