Wie interpretiere ich die obere / untere Grenze eines Datenpunktes mit Konfidenzintervallen?

8

Gegeben eine Liste von Werten:

%Vor%

Unter Verwendung des Student-t-Tests kann ich das Konfidenzintervall der Verteilung im Mittel mit einem Alpha von 0,1 (d. h. bei 90% Konfidenz) mit:

finden %Vor%

[out]:

%Vor%

Aber wenn ich das Konfidenzintervall bei jedem Datenpunkt finden würde, z.B. für den Wert 10 :

%Vor%

Wie sollte das Intervall der Werte interpretiert werden? Ist es statistisch / mathematisch sinnvoll, das überhaupt zu interpretieren?

Geht es etwa so:

  

Bei 90% iger Wahrscheinlichkeit wissen wir, dass der Datenpunkt 10 in das Intervall (9.6345012890050086, 10.365498710994991) ,

fällt

aka.

  

Bei 90% Konfidenz können wir sagen, dass der Datenpunkt bei 10 + - 0,365 liegt ...

Also können wir das Intervall als eine Art Box-Plot des Datenpunkts interpretieren?

    
alvas 15.03.2017, 00:23
quelle

2 Antworten

6

Kurz gesagt

Ihr Aufruf gibt das Vertrauensintervall für den mittleren Parameter eines normalen Gesetzes unbekannter Parameter an, von dem Sie 100 Beobachtungen mit einem Durchschnitt von 10 und einer Standardabweichung von 29 beobachtet haben. Es ist außerdem nicht vernünftig, es zu interpretieren, da Ihre Verteilung ist eindeutig nicht normal, und weil 10 nicht das beobachtete Mittel ist.

TL; DR

Es gibt viele Missverständnisse, die um Konfidenzintervalle herum schweben, von denen die meisten scheinbar auf einem Missverständnis beruhen, worüber wir uns sicher sind. Da es in Ihrem Verständnis des Konfidenzintervalls einige Verwirrung gibt, kann eine breitere Erklärung zu einem tieferen Verständnis der von Ihnen behandelten Konzepte führen und hoffentlich jede Fehlerquelle definitiv ausschließen.

Missverständnisse ausräumen

Sehr kurz, um Dinge einzurichten. Wir sind in einer Situation, in der wir einen Parameter schätzen wollen, oder vielmehr, wir wollen eine Hypothese für den Wert eines Parameters testen, der die Verteilung einer Zufallsvariablen parametrisiert. ZB: Ich habe eine normalverteilte Variable X mit Mittelwert m und Standardabweichung Sigma, und ich möchte die Hypothese m = 0 testen.

Was ist ein parametrischer Test

?

Dies ist ein Prozess zum Testen einer Hypothese auf einen Parameter für eine Zufallsvariable. Da wir nur Zugriff auf Beobachtungen haben, die konkrete Realisierungen der Zufallsvariablen sind, wird im Allgemeinen eine Statistik dieser Realisierungen berechnet. Eine Statistik ist in etwa eine Funktion der Realisierungen einer Zufallsvariablen. Nennen wir diese Funktion S, können wir S auf x_1, ..., x_n berechnen, die so viele Realisierungen von X sind.

Sie verstehen also, dass S (X) auch eine Zufallsvariable ist mit Verteilung, Parametern und so weiter! Die Idee ist, dass S (X) für Standardtests einer sehr bekannten Verteilung folgt, für die Werte tabelliert sind. z. B .: Ссылка

Was ist ein Konfidenzintervall?

In Anbetracht dessen, was wir gerade gesagt haben, wäre eine Definition für ein Konfidenzintervall: der Wertebereich für den getesteten Parameter, so dass, wenn die Beobachtungen aus einer Verteilung erzeugt werden sollten, die durch einen Wert in diesem Bereich parametrisiert ist, es wäre wahrscheinlich nicht unwahrscheinlich. Mit anderen Worten, ein Konfidenzintervall gibt eine Antwort auf die Frage: Angesichts der folgenden Beobachtungen x_1, ..., x_n n Realisierungen von X können wir zuversichtlich sagen, dass die Verteilung von X durch diesen Wert parametrisiert ist. 90%, 95%, etc ... bestätigt das Vertrauen. Normalerweise fixieren externe Beschränkungen dieses Niveau (industrielle Normen für die Qualitätsbewertung, wissenschaftliche Normen, z. B. für die Entdeckung neuer Teilchen).

Ich denke, es ist jetzt intuitiv für Sie:

  1. Je höher das Konfidenzniveau ist, desto größer ist das Konfidenzintervall. z.B. Bei einer Konfidenz von 100% würde das Konfidenzintervall über alle möglichen Werte hinausgehen, sobald eine gewisse Unsicherheit besteht.

  2. Für die meisten Tests, unter Bedingungen, die ich nicht beschreiben werde, je mehr Beobachtungen wir haben, desto mehr können wir das Konfidenzintervall einschränken.

  

Bei 90% iger Sicherheit wissen wir, dass der Datenpunkt 10 in das Intervall (9.6345012890050086, 10.365498710994991) fällt

Es ist falsch, das zu sagen, und es ist die häufigste Fehlerquelle. Ein 90% -Konfidenzintervall nie bedeutet, dass der geschätzte Parameter eine Wahrscheinlichkeit von 90% hat, in dieses Intervall zu fallen. Wenn das Intervall berechnet wird, deckt es den Parameter ab oder es ist nicht mehr eine Wahrscheinlichkeitssache. 90% ist eine Bewertung der Zuverlässigkeit des Schätzverfahrens .

Was ist ein Studententest?

Kommen wir nun zu Ihrem Beispiel und betrachten es unter dem Licht dessen, was wir gerade gesagt haben. Sie können einen Student-Test auf Ihre Beobachtungsliste anwenden. Erstens: Ein Student-Test zielt darauf ab, eine Hypothese der Gleichheit zwischen dem Mittelwert m einer normalverteilten Zufallsvariablen mit unbekannter Standardabweichung und einem bestimmten Wert m_0 zu testen.

Die mit diesem Test verbundene Statistik ist t = (np.mean(x) - m_0)/(s/sqrt(n)) , wobei x Ihr Beobachtungsvektor, n die Anzahl der Beobachtungen und s die empirische Standardabweichung ist. Kein Wunder, folgt dies einer Studentenverteilung.

Was Sie also tun möchten, ist:

  1. Berechnen Sie diese Statistik für Ihre Stichprobe, berechnen Sie das Konfidenzintervall für eine Student-Verteilung mit diesen vielen Freiheitsgraden, diesem theoretischen Mittelwert und dem Konfidenzniveau

  2. Sehen Sie, ob Ihre berechnete t in dieses Intervall fällt, was Ihnen sagt, ob Sie die Gleichheitshypothese mit einem solchen Vertrauensniveau ausschließen können.

Ich wollte dir eine Übung geben, aber ich denke, ich war lange genug.

Abschließend zur Verwendung von scipy.stats.t.interval . Sie können es auf zwei Arten verwenden.Berechnen Sie entweder die t-Statistik mit der oben gezeigten Formel und prüfen Sie, ob t in das von interval(alpha, df) zurückgegebene Intervall passt, wobei df die Länge Ihrer Stichprobe ist. Oder Sie können direkt interval(alpha, df, loc=m, scale=s) aufrufen, wobei m der empirische Mittelwert und s die empirische Standardabweichung (dividiert durch sqrt (n)) ist. In diesem Fall ist das zurückgegebene Intervall direkt das Konfidenzintervall für den Mittelwert.

Also in Ihrem Fall gibt Ihr Aufruf das Vertrauensintervall für den Mittelwert eines normalen Gesetzes unbekannter Parameter, von dem Sie 100 Beobachtungen mit einem Durchschnitt von 10 und einer Standardabweichung von 29 beobachtet haben. Es ist außerdem nicht vernünftig, es zu interpretieren neben dem Interpretationsfehler habe ich bereits darauf hingewiesen, da Ihre Verteilung eindeutig nicht normal ist, und weil 10 nicht das beobachtete Mittel ist.

Ressourcen

Sie können die folgenden Ressourcen auschecken, um weiter zu gehen.

Wikipedia-Links, um kurze Referenzen und eine hervorgehobene Übersicht zu haben

Ссылка

Ссылка

Ссылка

Um weiter zu gehen

Ссылка

Ich habe es nicht gelesen, aber das untenstehende scheint ziemlich gut zu sein. Ссылка

Sie sollten auch p-Werte auschecken, Sie werden viele Ähnlichkeiten finden und hoffentlich verstehen Sie sie besser nach dem Lesen dieses Posts.

Ссылка

    
Anis 24.03.2017, 11:07
quelle
3

Konfidenzintervalle sind hoffnungslos kontraintuitiv. Vor allem für Programmierer, wage ich es zu sagen, als Programmierer.

Wikipedida verwendet ein 90% iges Vertrauen, um eine mögliche Interpretation zu veranschaulichen:

  

Würde dieser Vorgang an zahlreichen Proben wiederholt, würde der Anteil der berechneten Konfidenzintervalle (die sich für jede Probe unterscheiden würden), die den wahren Populationsparameter umfassen, zu 90% tendieren.

Mit anderen Worten

  1. Das Konfidenzintervall liefert Informationen über einen statistischen Parameter (z. B. den Mittelwert) einer Stichprobe.
  2. Die Interpretation von z.B. ein 90% -Konfidenzintervall wäre: Wenn Sie das Experiment unendlich oft wiederholen, enthalten 90% der resultierenden Konfidenzintervalle den wahren Parameter.

Unter der Annahme, dass der Code zur Berechnung des Intervalls korrekt ist (was ich nicht überprüft habe), können Sie damit das Konfidenzintervall des Mittelwerts berechnen (wegen der t-distribution , die den Stichprobenmittelwert einer normalverteilten Population mit unbekannter Standardabweichung modelliert.

Aus praktischen Gründen ist es sinnvoll, den Stichprobenmittelwert anzugeben. Sonst sagst du " wenn ich vorgab, dass meine Daten einen Stichprobenmittelwert von beispielsweise 10 hätten, wäre das Konfidenzintervall des Mittelwerts [9.6, 10.3] ".

Die speziellen Daten, die in das Konfidenzintervall gelangen, sind ebenfalls nicht sinnvoll. Zahlen, die in einem Bereich von 0 bis 99 ansteigen, sind sehr wahrscheinlich nicht aus einer Normalverteilung zu entnehmen.

    
kazemakase 15.03.2017 08:08
quelle