Ich bin wirklich verwirrt, wie man Genauigkeit und Erinnerung in Cluster-Anwendungen berechnet.
Ich habe folgende Situation:
Gegeben sind zwei Mengen A und B. Durch die Verwendung eines eindeutigen Schlüssels für jedes Element kann ich bestimmen, welche der Elemente von A und B übereinstimmen. Ich möchte diese Elemente basierend auf Features clustern (natürlich nicht mit dem eindeutigen Schlüssel).
Ich mache das Clustering, aber ich bin mir nicht sicher, wie ich Präzision und Erinnerung berechnen soll. Die Formeln sind nach dem Papier "Erweiterte Leistungsgraphen für die Cluster-Suche" ( Ссылка ) :
p = Genauigkeit = relevante abgerufene Artikel / abgerufene Artikel und r = Rückruf = relevante abgerufene Artikel / relevante Artikel
Ich verstehe wirklich nicht, welche Elemente in welche Kategorie fallen.
Was ich bisher gemacht habe, ist, dass ich innerhalb der Cluster überprüft habe, wie viele passende Paare ich habe (mit dem eindeutigen Schlüssel). Ist das schon eine Präzision oder ein Rückruf? Und wenn ja, welches ist es und wie kann ich das andere berechnen?
Update: Ich habe gerade eine weitere Arbeit mit dem Titel "Ein F-Maß zur Bewertung von unbeaufsichtigtem Clustering mit unbestimmter Anzahl von Clustern" bei Ссылка .
Ich denke, Sie werden finden, dass Wikipedia einen hilfreichen Artikel über Präzision und Erinnerung hat. Kurz gesagt:
Präzision = wahre Positive / (wahre positive + falsche positive)
Recall = wahre positive / (wahre positiv + falsch negative)
Es gibt einige andere Maße für die Cluster-Gültigkeit, die ich in einigen Untersuchungen verwendet habe, die ich beim Zugriff auf Clustering-Methoden gemacht habe. In Fällen, in denen Sie ein Dataset mit Klassen beschriftet haben (überwachtes Clustering), können Sie wie oben erwähnt die Genauigkeit und den Rückruf verwenden oder Reinheit und Entropie.
Reinheit eines Clusters = die Anzahl der Vorkommen der häufigsten Klasse / die Größe des Clusters (dies sollte hoch sein)
Entropie eines Clusters = ein Maß dafür, wie verstreut Klassen mit einem Cluster sind (dies sollte niedrig sein)
In Fällen, in denen Sie die Klassenbezeichnungen nicht haben (unüberwachtes Clustering), sind Intra- und Inter-Ähnlichkeit gute Messwerte.
Intra-Cluster-Ähnlichkeit für einen einzelnen Cluster = durchschnittliche Kosinus-Ähnlichkeit aller Paare innerhalb eines Clusters (dies sollte hoch sein)
Inter-Cluster-Ähnlichkeit für einen einzelnen Cluster = durchschnittliche Kosinus-Sim aller Elemente in einem Cluster im Vergleich zu allen Elementen in jedem anderen Cluster (dies sollte niedrig sein)
Dieses Papier enthält einige gute Beschreibungen aller vier dieser Maßnahmen. Ссылка
Schöne Verbindung mit dem unbeaufsichtigten F-Maß, ich untersuche das gerade jetzt.
Was ich von diesem Problem mache ist:
Einer der Sätze A und B ist der "positive". Nehmen wir an, A ist positiv
Gegeben sei das für ein Element von A in einem Cluster
Dann benutze einfach
Präzision = wahre Positive / (wahre positive + falsche positive)
Recall = wahre positive / (wahre positiv + falsch negative) wie von jemandem erwähnt
Ich denke, es gibt ein Problem mit deinen Definitionen.
Präzision und Recall eignen sich für Klassifizierungsprobleme, die im Grunde Probleme mit zwei Clustern sind. Hätten Sie sich in so etwas wie "gute Artikel" (= abgerufene Artikel) und "schlechte Artikel" (= nicht abgerufene Artikel) geclustert, dann wäre Ihre Definition sinnvoll.
In Ihrem Fall haben Sie den Prozentsatz der korrekten Gruppierung aus allen Elementen berechnet, was eine Art Genauigkeit ist, aber nicht wirklich, weil, wie gesagt, die Definitionen nicht zutreffen.
Das Problem mit der Genauigkeit und dem Rückruf besteht darin, dass Sie im Allgemeinen eine Vorstellung davon haben müssen, was die "wahren" Etiketten sind, während Sie in vielen Fällen (und in Ihrer Beschreibung) die Etiketten nicht kennen, aber Sie kennen die Partition zum Vergleich. Ich würde den adjustierten Randindex vielleicht vorschlagen:
Wenn Sie eine der Mengen, sagen wir A, als Gold-Clustering und die andere Menge (B) als Ausgabe Ihres Clustering-Prozesses betrachten, können (exakte) Präzisions- und Abrufwerte als geschätzt werden :
Precision = (Anzahl der Elemente, die A und B gemeinsam sind) / (Anzahl der Elemente in B)
Recall = (Anzahl der Elemente, die A und B gemeinsam sind) / (Anzahl der Elemente in A)
Von diesen Standard-F-Maßen kann auch geschätzt werden.
Tags und Links cluster-analysis precision-recall