Für die Frage "Ellipse um die Daten in MATLAB" , in In der Antwort von Amro sagt er folgendes:
"Wenn Sie die Ellipse darstellen möchten ein bestimmtes Standardniveau Abweichung, die richtige Art zu tun ist durch Skalierung der Kovarianzmatrix "
und der Code zum Skalieren wurde als
angegeben %Vor% Ich verstehe die ersten drei Zeilen des obigen Code-Snippets nicht. Wie wird die Skalierung nach chi2inv(conf,2)
berechnet, und was ist der Grund dafür, sie mit der Covariace-Matrix zu multiplizieren?
Zusätzliche Frage:
Ich fand auch, dass, wenn ich es mit 1,5 STD skaliere, d. h. 86% Kacheln, die Ellipse alle Punkte abdecken kann, meine gesetzten Punkte in fast allen Fällen zusammenklumpen. Auf der anderen Seite, wenn ich es mit 3 STD skaliere, d. H. 99% Kacheln, ist die Ellipse viel zu groß. Wie kann ich dann eine Geschlechtskrankheit wählen, um die Klumpenpunkte gerade zu bedecken?
Hier ist ein Beispiel:
Die innere Ellipse entspricht 1,5 STD und äußere bis 2,5 STD. warum 1.5 STD die klumpenden weißen Punkte dicht bedecken? Gibt es einen Ansatz oder einen Grund, es zu definieren?
Das Ziel der Anzeige einer Ellipse um die Datenpunkte besteht darin, das Konfidenzintervall anzuzeigen, oder mit anderen Worten, "wie viel der Daten innerhalb einer bestimmten Standardabweichung vom Mittelwert"
liegt Im obigen Code hat er gewählt, eine Ellipse anzuzeigen, die 95% der Datenpunkte abdeckt. Für eine normale Verteilung sind ~ 67% der Daten 1 s.d. weg von der Mitte, ~ 95% innerhalb von 2 s. und ~ 99% innerhalb von 3 s. (Die Zahlen sind oben auf meinem Kopf, aber Sie können dies leicht überprüfen, indem Sie die Fläche unter der Kurve berechnen). Daher der Wert STD=2;
Sie werden feststellen, dass conf
ungefähr 0.95
ist.
Der Abstand der Datenpunkte vom Schwerpunkt der Daten entspricht ungefähr (xi^2+yi^2)^0.5
, wobei die Koeffizienten ignoriert werden. Quadratsummen von Zufallsvariablen folgen einer Chi-Quadrat-Verteilung, und daher verwendet er, um das entsprechende 95-Perzentil zu erhalten, die inverse Chi-Quadrat-Funktion mit d.o.f. 2, da es zwei Variablen gibt.
Schließlich folgt das Grundprinzip der Multiplikation der Skalierungskonstante aus der Tatsache, dass für eine quadratische Matrix A
mit Eigenwerten a1,...,an
die Eigenwerte einer Matrix kA
, wobei k
ein Skalar ist, einfach% co_de ist %. Die Eigenwerte geben die entsprechenden Längen der Haupt- / Nebenachse der Ellipse an, und daher entspricht das Skalieren der Ellipse oder der Eigenwerte der 95% -Kachel dem Multiplizieren der Kovarianzmatrix mit dem Skalierungsfaktor.
BEARBEITEN
Cheng, obwohl Sie das vielleicht schon wissen, schlage ich vor, dass Sie diese Antwort lesen zu einer Frage nach Zufälligkeit. Betrachten Sie eine Gaußsche Zufallsvariable mit Null-Mittelwert, Einheitsvarianz. Die PDF einer Sammlung solcher Zufallsvariablen sieht folgendermaßen aus:
Wenn ich jetzt zwei solche Sammlungen von Zufallsvariablen nehmen würde, diese einzeln quadrieren und sie zu einer einzigen Sammlung einer neuen Zufallsvariablen hinzufügen würde, sieht ihre Verteilung folgendermaßen aus:
Dies ist die Chi-Quadrat-Verteilung mit zwei Freiheitsgraden (seit wir zwei Sammlungen hinzugefügt haben).
Die Gleichung der Ellipse im obigen Code kann als ka1,...,kan
geschrieben werden, wobei x^2/a^2 +y^2/b^2=k
, x
die zwei Zufallsvariablen sind, y
und a
sind die Haupt- / Nebenachsen und b
ist eine Skalierungskonstante, die wir herausfinden müssen. Wie Sie sehen, kann das Obige als Quadrieren und Hinzufügen von zwei Sammlungen von Gaußschen Zufallsvariablen interpretiert werden, und wir haben gerade oben gesehen, wie die Verteilung aussieht. Also können wir sagen, dass k
eine Zufallsvariable ist, die Chi-Quadrat mit 2 Freiheitsgraden verteilt ist.
Jetzt müssen Sie nur noch einen Wert für k
finden, so dass 95% ile der Daten darin enthalten sind. Genau wie die 1s.d, 2s.d, 3s.d. Perzentile, die uns mit Gaussian vertraut sind, ist die 95% -Kachel für Chi-Quadrat mit 2 Freiheitsgraden um 6,18. Dies erhält Amro von der Funktion k
. Er hätte genauso gut chi2inv
schreiben können und es wäre genauso gewesen. Es ist nur das Reden in scale=chi2inv(0.95,2)
s.d. weg vom Mittelwert ist intuitiv.
Nur zur Veranschaulichung, hier ist eine PDF der Chi-Quadrat-Verteilung oben, mit 95% der Fläche & lt; einige n
sind rot schattiert. Dieser x
ist ~ 6,18.
Ich hoffe, das hat geholfen.