Welche Beziehung besteht zwischen der Themenmodellierung und dem Dokumentclustering?

8

Die Themenmodellierung identifiziert die Verteilung von Themen in einer Dokumentensammlung, die die Cluster in der Sammlung effektiv identifiziert. Also ist es richtig zu sagen, dass Thema Modellierung ist eine Technik, um Dokumenten-Clustering zu tun?

    
afs 19.03.2013, 02:48
quelle

2 Antworten

10

Ein Thema unterscheidet sich ziemlich von einem Dokumentencluster, denn ein Thema besteht nicht aus Dokumenten.

Diese beiden Techniken sind jedoch tatsächlich verwandt. Ich glaube, Topic Modeling ist ein praktikabler Weg, um zu entscheiden, wie ähnliche Dokumente sind, daher ein praktikabler Weg für Dokumenten-Clustering.

Bei der Darstellung jedes Dokuments als Themenverteilung (tatsächlich ein Vektor) reduzieren Themenmodellierungstechniken die Merkmaldimensionalität von der Anzahl der verschiedenen Wörter (in einem Korpus) zur Anzahl der Themen. Ähnlichkeiten zwischen den Topic-Verteilungen von Docs können mit Hilfe von Cosinus-Metriken und vielen anderen Metriken berechnet werden, die die Ähnlichkeit der Dokumente selbst in Bezug auf die behandelten Themen widerspiegeln. Basierend auf diesem quantifizierten Ähnlichkeitsmaß können viele Clustering-Algorithmen angewendet werden, um die Dokumente zu gruppieren.

Und in diesem Sinne halte ich es für richtig zu sagen, dass die Themenmodellierung eine Technik ist, um Dokumentenclustering durchzuführen.

    
Shockley 24.03.2013, 12:49
quelle
1

Die Beziehung zwischen Clustering und Klassifikation ist der Beziehung zwischen Topic Modeling und Multi-Label-Klassifikation sehr ähnlich.

Bei der Ein-Label-Mehrklassenklassifizierung weisen wir jedem Dokument nur ein Label zu. Und beim Clustering legen wir jedes Dokument in eine Gruppe. Tatsache ist, dass wir die Cluster nicht im Voraus definieren können, wenn wir Labels definieren. Wenn wir diese Tatsache ignorieren, sind Gruppierung und Kennzeichnung im Wesentlichen die gleichen.

Bei realen Problemen reicht die flache Klassifizierung jedoch nicht aus. Oft beziehen sich Dokumente auf mehrere Kategorien / Klassen. Daher nutzen wir die Multi-Label-Klassifizierung. Jetzt können wir das Thema Modellierung als unüberwachte Version der Multi-Label-Klassifikation sehen, da wir jedes Dokument unter mehrere Gruppen / Themen stellen können. Auch hier ignoriere ich die Tatsache, dass wir im Vorfeld nicht entscheiden können, welche Themen als Labels verwendet werden sollen.

    
hrzafer 09.07.2017 22:47
quelle