Wie berechnet lmer (aus dem R-Paket lme4) Log-Likelihood?

Question

Wie berechnet lmer (aus dem R-Paket lme4) Log-Likelihood?

8

Ich versuche die Funktion lmer zu verstehen. Ich habe viele Informationen darüber gefunden, wie man den Befehl benutzt, aber nicht viel darüber, was er eigentlich macht (abgesehen von einigen kryptischen Kommentaren hier: Ссылка ). Ich spiele mit dem folgenden einfachen Beispiel:

%Vor%

Ich verstehe, dass lmer ein Modell der Form Y_ {ij} = beta + B_i + epsilon_ {ij} anpasst, wobei epsilon_ {ij} und B_i unabhängige Normale mit den Varianzen sigma ^ 2 bzw. tau ^ 2 sind. Wenn Theta = Tau / Sigma festgelegt ist, berechnete ich die Schätzung für Beta mit der korrekten mittleren und minimalen Varianz als

%Vor%

wo

%Vor%

~~Ich habe auch die folgende unvoreingenommene Schätzung für Sigma ^ 2 berechnet:~~

~~s ^ 2 = \ Summe_ {i, j} alpha_i (y_ {ij} - c) ^ 2 / (1 + θ ^ 2 - Lambda)~~

Diese Schätzungen scheinen mit dem übereinzustimmen, was lmer produziert. Ich kann jedoch nicht herausfinden, wie Log-Likelihood in diesem Zusammenhang definiert ist. Ich berechnete die Wahrscheinlichkeitsdichte zu

%Vor%

wo

%Vor%

Aber log von dem oben genannten ist nicht was lmer produziert. Wie wird in diesem Fall die Log-Wahrscheinlichkeit berechnet (und für Bonus-Marken, warum)?

Bearbeiten: Änderung der Schreibweise für Konsistenz, ausgedrückte falsche Formel für die Schätzung der Standardabweichung.

r lmer random-effects

stewbasic 07.01.2014, 19:29

quelle

1 Antwort

Tags und Links r lmer random-effects

Django: Verwenden von Annotate, Count und Distinct in einem Queryset void als Typ eines Arguments einer generischen Funktion in TypeScript

score 11 · Accepted Answer

Die Links in den Kommentaren enthielten die Antwort. Im Folgenden habe ich in diesem einfachen Beispiel erklärt, was die Formeln vereinfachen, da die Ergebnisse etwas intuitiv sind.

lmer passt ein Modell der Form $Y_{ij} = \beta + B % 5f% 20% 2b% 20% 5cepsilon% 5f% 7bij% 7d$ , wobei $\epsilon_{ij}$ und $B_i$ sind unabhängige Normalen mit Abweichungen $\sigma % 5e2$ . Die gemeinsame Wahrscheinlichkeitsverteilung von $Y_{ij}$ und $B% 5fi$ ist also

$\left(\prod_{i,j}f_{\sigma^2}(y_ % 7bij% 7d% 2d% 5cbeta% 2db% 5fi% 29% 5cight% 29% 5cleft% 28% 5cprod% 5fi% 20f% 5f% 7b% 5ctau% 5e2% 7d% 28b% 5fi% 29% 5cright% 29$

wo

$f_{\sigma^2}(x)=\frac{1}{\sqrt% 7b2% 5cpi% 5csigma% 5e2% 7d% 7de% 5e% 7b% 2d% 5cfrac% 7bx% 5e2% 7d% 7b2% 5csigma% 5e2% 7d% 7d$ .

Die Wahrscheinlichkeit wird erhalten, indem man dies in $b_i$ (was nicht beobachtet wird) integriert, um

zu geben

$\left(\prod_{i,j}f_{\sigma^2}(y_ % 7bij% 7d% 2d% 5cbar% 20y% 5fi% 29% 5Kr% 29% 5Kl% 28% 5Kr% 5%% 5%% 2%% 5%% 5%% 5%% 5%% 5%% 5%% % 5cbar% 20y% 5fi% 2d% 5cbeta% 29% 5csqrt% 7b2% 5cpi% 5csigma% 5e2% 2fn% 5fi% 7d% 5cright% 29$

wobei $n_i$ die Anzahl der Beobachtungen aus der Gruppe $i$ und $\bar y_i$ ist der Mittelwert der Beobachtungen aus der Gruppe $i$ . Dies ist etwas intuitiv, da sich die ersten Terme innerhalb jeder Gruppe verbreiten, die eine Abweichung $\sigma^2$ haben sollte, und die zweite fängt den Spread ein zwischen Gruppen. Beachten Sie, dass $\sigma^2/n_i+\tau^2$ die Varianz von $\bar y_i$ .

Standardmäßig (REML = T) maximiert lmer jedoch nicht die Likelihood, sondern das "REML-Kriterium", das durch zusätzliche Integration in $% 5cbeta$ geben

$\left(\prod_{i,j}f_{\sigma^2}(y_ % 7bij% 7d% 2d% 5cbar% 20y% 5fi% 29% 5Kr% 29% 5Kl% 28% 5Kr% 5%% 5%% 2%% 5%% 5%% 5%% 5%% 5%% 5%% % 5cbar% 20y% 5fi% 2d% 5ch% 5cbeta% 29% 5csqrt% 7b2% 5cpi% 5csigma% 5e2% 2fn% 5fi% 7d% 5cright% 29% 5csqrt% 7b% 5cfrac% 7b2% 5cpi% 5csigma% 5e2% 7d % 7b% 5csum% 5fi% 5cfrac% 7bn% 5fi% 7d% 7b1% 2bn% 5f% 5ctheta% 5e2% 7d% 7d% 7d$

wobei $\hat\beta$ unten angegeben ist.

Maximierung der Wahrscheinlichkeit (REML = F)

Wenn $\theta=\tau/\sigma$ behoben ist, können wir explizit $\beta$ und $\sigma$ welche die Wahrscheinlichkeit maximieren. Sie erweisen sich als

$\hat\beta=\frac{\sum_{i,j}y_{ij}/ % 281% 2% 5% 5% 5% 5% 2% 29% 7%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 29% <p> <img src=$

Hinweis $\hat\sigma^2$ hat zwei Begriffe für Variationen innerhalb und zwischen Gruppen und $\hat\beta$ liegt irgendwo zwischen dem Mittelwert von $y_{ij}$ und der Mittelwert von $\bar y_i$ abhängig vom Wert von .

Indem wir diese in Likelihood einsetzen, können wir die Log-Wahrscheinlichkeit $l$ im Sinne von $\theta$ nur:

$-2l=\sum_\log(1+n_\theta^2)+n(1+ % 5clog% 282% 5cpi% 5chat% 5csigma% 5e2% 29% 29$

lmer iteriert, um den Wert von $\theta$ zu finden, der dies minimiert.In der Ausgabe $-2l$ und $l$ werden in den Feldern "deviance" und "logLik" (wenn REML = F) angezeigt.

Maximierung der eingeschränkten Wahrscheinlichkeit (REML = T)

Da das REML-Kriterium nicht von $\beta$ abhängt, verwenden wir dieselbe Schätzung für $\beta$ wie oben. Wir schätzen $\sigma$ , um das REML-Kriterium zu maximieren:

$\hat\beta=\frac{\sum_{i,j}y_{ij}/ % 281% 2% 5% 5% 5% 5% 2% 29% 7%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 5%% 29% <p> <img src=$

Die eingeschränkte Protokollwahrscheinlichkeit $l_R$ wird von

angegeben

$-2l_R=\sum_\log(1+n_\theta^2)+(n % 2d1% 29% 281% 2b% 5clog% 282% 5cpi% 5chat% 5csigma% 5e2% 29% 29% 2b% 5clog% 5cleft% 28% 5ctsum% 5fi% 5cfrac% 7bn% 5fi% 7d% 7b1% 2bn% 5fi % 5ctheta% 5e2% 7d% 5cright% 29$

In der Ausgabe von lmer, $-2l_R$ und $l% 5fR$ werden in den Feldern" REMLdev "und" logLik "(wenn REML = T) angezeigt.