Wie berechnet man Präzision und erinnert sich beim Clustering?

Question

Wie berechnet man Präzision und erinnert sich beim Clustering?

7

Ich bin wirklich verwirrt, wie man Genauigkeit und Erinnerung in Cluster-Anwendungen berechnet.

Ich habe folgende Situation:

Gegeben sind zwei Mengen A und B. Durch die Verwendung eines eindeutigen Schlüssels für jedes Element kann ich bestimmen, welche der Elemente von A und B übereinstimmen. Ich möchte diese Elemente basierend auf Features clustern (natürlich nicht mit dem eindeutigen Schlüssel).

Ich mache das Clustering, aber ich bin mir nicht sicher, wie ich Präzision und Erinnerung berechnen soll. Die Formeln sind nach dem Papier "Erweiterte Leistungsgraphen für die Cluster-Suche" ( Ссылка ) :

p = Genauigkeit = relevante abgerufene Artikel / abgerufene Artikel und r = Rückruf = relevante abgerufene Artikel / relevante Artikel

Ich verstehe wirklich nicht, welche Elemente in welche Kategorie fallen.

Was ich bisher gemacht habe, ist, dass ich innerhalb der Cluster überprüft habe, wie viele passende Paare ich habe (mit dem eindeutigen Schlüssel). Ist das schon eine Präzision oder ein Rückruf? Und wenn ja, welches ist es und wie kann ich das andere berechnen?

Update: Ich habe gerade eine weitere Arbeit mit dem Titel "Ein F-Maß zur Bewertung von unbeaufsichtigtem Clustering mit unbestimmter Anzahl von Clustern" bei Ссылка .

cluster-analysis precision-recall

Christian Stade-Schuldt 18.03.2009, 11:40

quelle

7 Antworten

8

Es gibt einige andere Maße für die Cluster-Gültigkeit, die ich in einigen Untersuchungen verwendet habe, die ich beim Zugriff auf Clustering-Methoden gemacht habe. In Fällen, in denen Sie ein Dataset mit Klassen beschriftet haben (überwachtes Clustering), können Sie wie oben erwähnt die Genauigkeit und den Rückruf verwenden oder Reinheit und Entropie.

Reinheit eines Clusters = die Anzahl der Vorkommen der häufigsten Klasse / die Größe des Clusters (dies sollte hoch sein)

Entropie eines Clusters = ein Maß dafür, wie verstreut Klassen mit einem Cluster sind (dies sollte niedrig sein)

In Fällen, in denen Sie die Klassenbezeichnungen nicht haben (unüberwachtes Clustering), sind Intra- und Inter-Ähnlichkeit gute Messwerte.

Intra-Cluster-Ähnlichkeit für einen einzelnen Cluster = durchschnittliche Kosinus-Ähnlichkeit aller Paare innerhalb eines Clusters (dies sollte hoch sein)

Inter-Cluster-Ähnlichkeit für einen einzelnen Cluster = durchschnittliche Kosinus-Sim aller Elemente in einem Cluster im Vergleich zu allen Elementen in jedem anderen Cluster (dies sollte niedrig sein)

Dieses Papier enthält einige gute Beschreibungen aller vier dieser Maßnahmen. Ссылка

Schöne Verbindung mit dem unbeaufsichtigten F-Maß, ich untersuche das gerade jetzt.

Andrew 30.04.2009 16:20

quelle

2

Was ich von diesem Problem mache ist:

Einer der Sätze A und B ist der "positive". Nehmen wir an, A ist positiv

Gegeben sei das für ein Element von A in einem Cluster

Das übereinstimmende Element von B befindet sich im selben Cluster. es ist ein wirklich positives
Das übereinstimmende Element von B befindet sich nicht im selben Cluster. es ist ein falsches Negativ
nicht übereinstimmendes Element von B befindet sich im selben Cluster. ist ein falsch positives
Nicht übereinstimmendes Element von B befindet sich nicht im selben Cluster. Das ist ein echtes Negativ.

Dann benutze einfach

Präzision = wahre Positive / (wahre positive + falsche positive)

Recall = wahre positive / (wahre positiv + falsch negative) wie von jemandem erwähnt

Midhat 30.03.2009 12:43

quelle

1

Ich denke, es gibt ein Problem mit deinen Definitionen.

Präzision und Recall eignen sich für Klassifizierungsprobleme, die im Grunde Probleme mit zwei Clustern sind. Hätten Sie sich in so etwas wie "gute Artikel" (= abgerufene Artikel) und "schlechte Artikel" (= nicht abgerufene Artikel) geclustert, dann wäre Ihre Definition sinnvoll.

In Ihrem Fall haben Sie den Prozentsatz der korrekten Gruppierung aus allen Elementen berechnet, was eine Art Genauigkeit ist, aber nicht wirklich, weil, wie gesagt, die Definitionen nicht zutreffen.

daphshez 18.03.2009 12:00

quelle

1

Siehe "Einführung in das Information Retrieval", Kapitel 18 (Fett-Clustering), für Möglichkeiten, Cluster-Algorithmen auszuwerten. Ссылка

Dieser Abschnitt des Buches kann sich auch als nützlich erweisen, da er Metriken wie Präzision und Abruf behandelt: Ссылка

SquareCog 30.03.2009 12:47

quelle

1

Das Problem mit der Genauigkeit und dem Rückruf besteht darin, dass Sie im Allgemeinen eine Vorstellung davon haben müssen, was die "wahren" Etiketten sind, während Sie in vielen Fällen (und in Ihrer Beschreibung) die Etiketten nicht kennen, aber Sie kennen die Partition zum Vergleich. Ich würde den adjustierten Randindex vielleicht vorschlagen:

Ссылка

Dan Stowell 01.08.2012 15:43

quelle

0

Wenn Sie eine der Mengen, sagen wir A, als Gold-Clustering und die andere Menge (B) als Ausgabe Ihres Clustering-Prozesses betrachten, können (exakte) Präzisions- und Abrufwerte als geschätzt werden :

Precision = (Anzahl der Elemente, die A und B gemeinsam sind) / (Anzahl der Elemente in B)

Recall = (Anzahl der Elemente, die A und B gemeinsam sind) / (Anzahl der Elemente in A)

Von diesen Standard-F-Maßen kann auch geschätzt werden.

user1483031 26.06.2012 14:25

quelle

Tags und Links cluster-analysis precision-recall

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Was empfehlen Sie für die Annahme von Benutzerzeichnungen im Browser?

score 9 · Accepted Answer

Ich denke, Sie werden finden, dass Wikipedia einen hilfreichen Artikel über Präzision und Erinnerung hat. Kurz gesagt:

Präzision = wahre Positive / (wahre positive + falsche positive)

Recall = wahre positive / (wahre positiv + falsch negative)