Ich habe zwei Sätze von Statistiken, die aus der Verarbeitung generiert wurden. Die Daten von der Verarbeitung können eine große Menge von Ergebnissen sein, so dass ich lieber nicht alle Daten speichern möchte, um später die zusätzlichen Daten neu zu berechnen.
Angenommen, ich habe zwei Sätze von Statistiken, die zwei verschiedene Sitzungen von Läufen über einen Prozess beschreiben.
Jeder Satz enthält
%Vor%Wie würde ich den Median und die Standardabweichung der beiden zusammenführen, um eine kombinierte Zusammenfassung der beiden beschriebenen Statistiksätze zu erhalten?
Denken Sie daran, dass ich nicht beide Datensätze beibehalten kann, die die Statistiken beschreiben.
Sie können die mittlere und Standardabweichung, aber nicht den Median erhalten.
%Vor% Dabei ist n(0)
die Anzahl der Läufe im ersten Datensatz, n(1)
ist die Anzahl der Läufe im zweiten und so weiter, mean
ist der Mittelwert und var
ist die Varianz (die ist nur Standardabweichung im Quadrat). n**2
bedeutet "n Quadrat".
Das Erhalten der kombinierten Varianz beruht auf der Tatsache, dass die Varianz eines Datensatzes gleich dem Mittelwert des Quadrats des Datensatzes minus dem Quadrat des Mittelwerts des Datensatzes ist. In der statistischen Sprache
%Vor% Die oben angegebenen var(n)+mean(n)**2
geben uns den E(X^2)
Anteil, den wir dann mit anderen Datensätzen kombinieren können und dann das gewünschte Ergebnis erhalten.
In Bezug auf Mediane:
Wenn Sie genau zwei Datensätze kombinieren, können Sie sicher sein, dass der kombinierte Median irgendwo zwischen den beiden Medianen liegt (oder gleich einem davon), aber es gibt wenig mehr, was Sie sagen können. Der Durchschnittswert sollte OK sein, es sei denn, Sie möchten vermeiden, dass der Median einem Datenpunkt entspricht.
Wenn Sie viele Datensätze auf einmal kombinieren, können Sie entweder den Median der Mediane nehmen oder deren Durchschnittswert nehmen. Wenn zwischen den verschiedenen Datensätzen signifikante systematische Unterschiede bestehen, ist es wahrscheinlich besser, ihren Durchschnittswert zu verwenden, da der Median den Effekt von Ausreißern verringert. Aber wenn Sie systematische Unterschiede zwischen Läufen haben, ist es wahrscheinlich nicht gut, sie zu ignorieren.
Artelius ist mathematisch richtig, aber die Art, wie er vorschlägt, die Varianz zu berechnen, ist numerisch instabil. Sie möchten die Varianz wie folgt berechnen:
%Vor% aus Kommentar bearbeiten
Das Problem mit dem ursprünglichen Code ist, wenn Ihre Abweichung im Vergleich zu Ihrem Mittelwert klein ist, Sie am Ende eine große Zahl von einer großen Zahl subtrahieren, um eine relativ kleine Zahl zu erhalten, die dazu führen wird, dass Sie Gleitkomma-Genauigkeit verlieren. Der neue Code vermeidet dieses Problem; Anstatt in E (X ^ 2) und zurück zu konvertieren, addiert es einfach alle Beiträge zur Gesamtvarianz zusammen, entsprechend ihrer Stichprobengröße gewichtet.
Tags und Links math statistics