Wie versteht man die Ausgabe der Topic Model Klasse in Mallet?

8

Da ich den Beispielcode auf dem Entwicklerhandbuch zum Thema Modellieren ausprobiere, möchte ich das wirklich tun verstehe die Bedeutung der Ausgabe dieses Codes.

Zuerst gibt es während des laufenden Prozesses:

%Vor%

so Frage1 : Was bedeutet "Codierte LDA: 10 Themen, 4 Themenbits, 1111 Themenmaske" in der ersten Zeile? Ich weiß nur, worum es bei "10 Themen" geht.

Question2 : Was bedeutet LL / Token in "& lt; 10 & gt; LL / Token: -9,24097 & lt; 20 & gt; LL / Token: -9,1026 & lt; 30 & gt; LL / Token : -8,95386 & lt; 40 & gt; LL / Token: -8,75353 & ldquor; Es scheint wie eine Metrik zu Gibss Sampling. Aber steigt es nicht monoton an?

Und danach wird folgendes gedruckt:

%Vor%

Die erste Zeile in diesem Teil ist wahrscheinlich die Token-Topic-Zuweisung, richtig?

Frage3 : für das erste Thema,

%Vor%

0.008 wird als "topic distribution" bezeichnet, ist es die Verteilung dieses Themas im gesamten Korpus? Dann scheint es einen Konflikt zu geben: Thema 0, wie oben gezeigt, wird sein Token im Copus 8 + 7 + 6 + 4 + 4 + ... mal erscheinen lassen; und im Vergleich Thema 7 haben 4 + 3 + 3 + 3 + 3 ... mal im Korpus erkannt. Als Ergebnis sollte Thema 7 eine geringere Verbreitung als Thema 0 haben. Das kann ich nicht verstehen. Weiter, was ist das "0 0,55" am Ende?

Vielen Dank, dass Sie diesen langen Post gelesen haben. Ich hoffe, Sie können es beantworten und hoffen, dass dies für andere, die sich für Mallet interessieren, hilfreich sein könnte.

am besten

    
Matt 09.12.2011, 15:02
quelle

3 Antworten

5

Ich glaube nicht, dass ich genug weiß, um eine sehr vollständige Antwort zu geben, aber hier ist eine Einstellung von etwas ... für Q1 können Sie einige Code , um zu sehen, wie diese Werte berechnet werden. Für Q2 ist LL die Log-Wahrscheinlichkeit des Modells dividiert durch die Gesamtzahl der Token. Dies ist ein Maß dafür, wie wahrscheinlich die Daten dem Modell gegeben werden. Steigende Werte bedeuten, dass sich das Modell verbessert. Diese sind auch in den Paketen R für die Themenmodellierung verfügbar. Q2, ja ich denke, das ist richtig für die erste Zeile. Q3, gute Frage, es ist mir nicht sofort klar, vielleicht sind die (x) eine Art Index, Token-Häufigkeit scheint unwahrscheinlich ... Vermutlich sind die meisten davon Diagnosen.

Mit bin\mallet run cc.mallet.topics.tui.TopicTrainer ...your various options... --diagnostics-file diagnostics.xml kann ein nützlicherer Satz von Diagnosen erhalten werden, der eine große Anzahl von Messungen der Themenqualität erzeugt. Sie sind definitiv einen Besuch wert.

Für die vollständige Geschichte über all das würde ich vorschlagen, eine E-Mail an David Mimno in Princeton zu schreiben, der der (wichtigste?) Betreuer von MALLET ist oder ihm über die Liste unter Ссылка und dann Antworten hier für diejenigen von uns, die neugierig auf das Innenleben von MALLET sind ...

    
Ben 13.12.2011 10:18
quelle
2

Was ich verstehe ist das:

%Vor%
  • 0 ist die Themennummer.
  • 0.008 ist das Gewicht eines solchen Themas
  • battle (8) union (7) [...] sind die Top-Keywords in diesem Thema. Die Zahlen sind das Vorkommen des Wortes im Thema.

Als Ergebnis erhalten Sie auch eine CSV-Datei. Ich denke, es enthält die wichtigsten Daten des Prozesses. Sie finden für jede Zeile folgende Werte:

%Vor%

Das ist:

  1. Baumebene
  2. Themen-ID
  3. Gesamtanzahl der Wörter
  4. Gesamtdokumente
  5. Top-10 Wörter

Ein bisschen spät, aber ich hoffe, es hilft jemandem

    
gal007 29.04.2016 08:29
quelle
1

Für Frage 3 glaube ich, dass sich die 0.008 (die "Themenverteilung") auf die früheren \ alpha-über-Themen-Verteilungen für Dokumente bezieht. Mallet optimiert diese Prioritätsstufe, was es einigen Themen erlaubt, mehr "Gewicht" zu tragen. Mallet scheint zu schätzen, dass das Thema 0 nur einen kleinen Teil Ihres Körpers ausmacht.

Die Token-Zählungen repräsentieren nur die Wörter mit den höchsten Zählwerten. Die verbleibenden Zählungen für Thema 0 könnten beispielsweise 0 sein, und die verbleibenden Zählungen für Thema 9 könnten 3 sein. Daher kann Thema 9 viel mehr Wörter in Ihrem Korpus als Thema 0 erklären, obwohl die Zählungen für die obersten Wörter sind niedriger.

Ich müsste am Ende den Code für die "0 0,55" auschecken, aber das ist wahrscheinlich der optimierte \ beta-Wert (von dem ich mir ziemlich sicher bin, dass er nicht asymetrisch ist).

    
drevicko 10.03.2014 11:58
quelle

Tags und Links