Ich habe zwei Histogramme.
%Vor%Die Verteilung von Hist1 ist vom Typ multimodal;
Die Verteilung von Hist2 ist vom Typ uni-modal mit einem einzelnen prominenten Peak.
Meine Fragen sind
Danke
Raj,
Ich habe eine C-Funktion in Ihrer anderen Frage gepostet ( automatisch zwei Serien-Dissimilaritätstest vergleicht ), die Divergenz zwischen zwei Gruppen ähnlicher Daten berechnet. Es ist eigentlich beabsichtigt, Ihnen zu sagen, wie genau reale Daten mit vorhergesagten Daten übereinstimmen, aber ich vermute, Sie könnten es für Ihren Zweck verwenden.
Grundsätzlich gilt: Je kleiner der Fehler, desto ähnlicher sind die beiden Sätze.
Dies sind nur Vermutungen, aber ich würde versuchen, jede Verteilung als eine Gauß-Verteilung anzupassen und etwas wie den R-Quadrat-Wert zu verwenden, um zu bestimmen, ob die Verteilung uni-modal ist oder nicht.
Was die Ähnlichkeit zwischen den beiden Verteilungen betrifft, würde ich versuchen, eine Autokorrelation zu machen und den positiven Spitzenwert in der Autokorrelation als Ähnlichkeitsmaß. Diese Ideen sind ziemlich grob, aber hoffentlich geben sie dir einige Ideen.
Für # 2 könnten Sie ihre Kreuzkorrelation berechnen (solange die Buckets selbst sortiert werden können) ). Das würde Ihnen eine grobe Einschätzung dessen geben, was "Ähnlichkeit" ist.
Vergleich von Histogrammen (Zur Verwendung in der Cloud-Modellierung).
(Das ist eine MS-DOC-Datei.)
Es gibt eine Vielzahl von Softwarepaketen, die Ihre Distributionen an bekannte diskrete Distributionen für Sie anpassen - Minitab, STATA, R usw. Ein Verweis auf passende Distributionen in R ist hier . Ich würde nicht empfehlen, dies von Grund auf neu zu programmieren.
Wenn Verteilungsvergleiche nicht zu einer bekannten Verteilung passen (Poisson, Binomial usw.), müssen Sie nichtparametrische Methoden verwenden, die in hier .
Tags und Links math probability statistics histogram