unsupervised-learning

___ qstnhdr ___ Welche Beziehung besteht zwischen der Themenmodellierung und dem Dokumentclustering? ___ answer45001758 ___

Die Beziehung zwischen Clustering und Klassifikation ist der Beziehung zwischen Topic Modeling und Multi-Label-Klassifikation sehr ähnlich.

Bei der Ein-Label-Mehrklassenklassifizierung weisen wir jedem Dokument nur ein Label zu. Und beim Clustering legen wir jedes Dokument in eine Gruppe. Tatsache ist, dass wir die Cluster nicht im Voraus definieren können, wenn wir Labels definieren. Wenn wir diese Tatsache ignorieren, sind Gruppierung und Kennzeichnung im Wesentlichen die gleichen.

Bei realen Problemen reicht die flache Klassifizierung jedoch nicht aus. Oft beziehen sich Dokumente auf mehrere Kategorien / Klassen. Daher nutzen wir die Multi-Label-Klassifizierung. Jetzt können wir das Thema Modellierung als unüberwachte Version der Multi-Label-Klassifikation sehen, da wir jedes Dokument unter mehrere Gruppen / Themen stellen können. Auch hier ignoriere ich die Tatsache, dass wir im Vorfeld nicht entscheiden können, welche Themen als Labels verwendet werden sollen.

    
___ tag123topicmodeling ___ Topic-Modelle beschreiben die Häufigkeit von Themen in Dokumenten und Texten. Ein "Thema" ist eine Gruppe von Wörtern, die dazu neigen, zusammen aufzutreten. ___ answer15598652 ___

Ein Thema unterscheidet sich ziemlich von einem Dokumentencluster, denn ein Thema besteht nicht aus Dokumenten.

Diese beiden Techniken sind jedoch tatsächlich verwandt. Ich glaube, Topic Modeling ist ein praktikabler Weg, um zu entscheiden, wie ähnliche Dokumente sind, daher ein praktikabler Weg für Dokumenten-Clustering.

Bei der Darstellung jedes Dokuments als Themenverteilung (tatsächlich ein Vektor) reduzieren Themenmodellierungstechniken die Merkmaldimensionalität von der Anzahl der verschiedenen Wörter (in einem Korpus) zur Anzahl der Themen. Ähnlichkeiten zwischen den Topic-Verteilungen von Docs können mit Hilfe von Cosinus-Metriken und vielen anderen Metriken berechnet werden, die die Ähnlichkeit der Dokumente selbst in Bezug auf die behandelten Themen widerspiegeln. Basierend auf diesem quantifizierten Ähnlichkeitsmaß können viele Clustering-Algorithmen angewendet werden, um die Dokumente zu gruppieren.

Und in diesem Sinne halte ich es für richtig zu sagen, dass die Themenmodellierung eine Technik ist, um Dokumentenclustering durchzuführen.

    
___ tag123clusteranalyse ___ Clusteranalyse ist der Prozess der Gruppierung "ähnlicher" Objekte in Gruppen, die als "Cluster" bekannt sind, zusammen mit der Analyse dieser Ergebnisse. ___ qstntxt ___

Die Themenmodellierung identifiziert die Verteilung von Themen in einer Dokumentensammlung, die die Cluster in der Sammlung effektiv identifiziert. Also ist es richtig zu sagen, dass Thema Modellierung ist eine Technik, um Dokumenten-Clustering zu tun?

    
___ tag123unüberwachtes Lernen ___ Unkontrolliertes Lernen bezieht sich auf Maschinenlernkontexte, in denen es keine vorherige "Trainings" -Periode gibt, in der der Lernagent an Objekten bekannter Art trainiert wird. Als solches umfasst das überwachte Lernen solche Disziplinen wie das mathematische Clustering, wobei Daten auf der Grundlage der Minimierung oder Maximierung mathematischer Eigenschaften in Cluster segmentiert werden und nicht auf einem Versuch, durch das Verstehen des richtigen Kontextes zu klassifizieren. ___
2
Antworten

Welche Beziehung besteht zwischen der Themenmodellierung und dem Dokumentclustering?

Die Themenmodellierung identifiziert die Verteilung von Themen in einer Dokumentensammlung, die die Cluster in der Sammlung effektiv identifiziert. Also ist es richtig zu sagen, dass Thema Modellierung ist eine Technik, um Dokumenten-Clustering...
19.03.2013, 02:48