Multinomiale Regression mit multinom Funktion in R

8

Ich habe darüber nachgedacht, meine Frage in "Cross-Validated" zu stellen, habe mich aber entschieden, hierher zu kommen. Ich benutze die Funktion multinom () aus dem nnet-Paket, um die Wahrscheinlichkeit zu schätzen, arbeitslos oder arbeitslos zu werden, abhängig von Alter und Ausbildung. Ich brauche Hilfe bei der Interpretation.

Ich habe den folgenden Datensatz eines abhängigen kategorialen Variablen Beschäftigungsstatus (EmpSt) und zwei unabhängige kategorische Variablen: Alter (Alter) und Bildungsniveau (Bildung).

%Vor%

Hier ist die Zusammenfassung mit den Ebenen:

%Vor%
  • Erstens, was ist die Schätzgleichung (Modell)
  • ?

Ich möchte bestimmen, was die Schätzgleichung (Modell) für den Aufruf

ist

df$EmpSt<-relevel(df$EmpSt,ref="Employed") multinom(EmpSt ~ Age + Education,data=df)

damit ich es in meiner Forschungsarbeit aufschreiben kann. In meinem Verständnis ist Employeed die Basisebene und das Logit-Modell für diesen Aufruf ist:

Dabei sind i und n die Kategorien der Variablen Alter und Bildung (sorry für verwirrende Notation). Bitte korrigieren Sie mich, wenn mein Verständnis des von multinom () erstellten Logistikmodells falsch ist. Ich werde nicht die Zusammenfassung des Tests einschließen, weil es eine Menge Ausgabe ist, also unten schließe ich einfach die Ausgabe für den Aufruf >test ein:

%Vor%

Da mein Verständnis des Logit-Modells, das von multinom () erstellt wurde, korrekt ist, sind die Koeffizienten die aufgezeichneten Odds, bei denen das Basis-Level verwendet wird. Um die tatsächlichen Quoten zu erhalten, logge ich mich mit dem Aufruf exp(coef(test)) an, was mir die tatsächlichen Chancen gibt:

%Vor%

was mich zu meiner nächsten Frage bringt.

  • Zweitens, die Wahrscheinlichkeiten

Ich frage mich, ob es einen Weg gibt, die tatsächlichen Wahrscheinlichkeiten, arbeitslos oder abhängig von der Kombination von Alter und Bildung zu sein, zu erhalten, z. B. wie hoch ist die Wahrscheinlichkeit, arbeitslos zu sein, wenn ich 22 bin und ein Abitur habe. Entschuldigung für die lange Frage. Danke für Ihre Hilfe. Lassen Sie es mich wissen, wenn zusätzliche Klärung erforderlich ist.

    
Koba 10.03.2014, 06:34
quelle

1 Antwort

5

Über Ihre erste Frage habe ich auch einige Zweifel über multinom mit kategorischen Variablen (hier ist meine Frage: Multinom mit Matrix der Zählungen als Antwort ).

Wie ein Benutzer in dieser Frage und der von Ihnen geposteten Ausgabe von >test geantwortet hat, denke ich, dass die von Ihnen geschriebene Mathematik teilweise richtig ist: In der Tat sollte ein multinomiales Modell nur funktionieren, wenn die Prädiktorvariablen kontinuierlich oder dichotom sind , mit Werten nur 0 oder 1), und wenn multinom kategoriale Variablen als Prädiktoren erhält, wie in Ihrem Beispiel, konvertiert R diese automatisch in Dummy-Variablen (nur 0 oder 1).

In Bezug auf Ihr Beispiel sollten wir, wenn wir nur den Prädiktor Age betrachten, ln(\frac{Pr(unemployed)}{Pr(employed}) = \beta_0 + \beta_1*Age20-29 + \beta_2*Age30-39 + ... und eine analoge Formel für Pr(not in labor force) haben, aber mit anderen \beta Koeffizienten.

Über Ihre zweite Frage: Ja, es gibt einen Weg. Verwenden Sie predict(test, newdata, "probs") , wobei newdata ein Array mit Age20-29 und High school graduates, no college als Einträge (in Ihrem Beispiel) ist.

    
Pippo 10.03.2014, 07:59
quelle