NLTK / NLP, das einen Viele-zu-Viele / Multi-Label-Subjekt-Klassifikator enthält

8

Ich habe ein menschliches etikettiertes Korpus von über 5000 indizierten Dokumenten in XML. Sie variieren in der Größe von ein paar hundert Kilobytes bis zu ein paar hundert Megabyte. Kurze Artikel zu Manuskripten sein. Sie wurden alle so tief wie die Absatzebene indiziert. Ich habe das Glück, solch ein Korpus zur Verfügung zu haben, und ich versuche mir selbst einige NLP-Konzepte beizubringen. Zugegeben, ich habe erst angefangen. Bisher nur das frei verfügbare NLTK Buch, streamhacker und das jacobs (?) NLTK Kochbuch. Ich experimentiere gerne mit einigen Ideen.

Es wurde mir vorgeschlagen, dass ich vielleicht Bigramme nehmen und eine naive Bayes-Klassifizierung verwenden könnte, um neue Dokumente zu markieren. Ich habe das Gefühl, dass dies der falsche Ansatz ist. Ein Naive Bayes beherrscht eine echte / falsche Art von Beziehung, aber um es auf meinem hierarchischen Tag-Set zu verwenden, müsste ich einen neuen Klassifikator für jedes Tag erstellen. Fast 1000 von ihnen. Ich habe die Speicher- und Prozessorleistung, um eine solche Aufgabe zu übernehmen, bin aber skeptisch gegenüber den Ergebnissen. Allerdings werde ich diesen Ansatz zuerst versuchen, um jemandes Anfrage zu beschwichtigen. Ich sollte dies wahrscheinlich in den nächsten ein oder zwei Tagen erreichen, aber ich sage voraus, dass die Genauigkeit niedrig ist.

Meine Frage ist also ein wenig offen. Wegen der Natur der Disziplin und der allgemeinen Unbefangenheit mit meinen Daten wird es wahrscheinlich schwierig sein, eine genaue Antwort zu geben.

  1. Welche Art von Klassifikator wäre für diese Aufgabe geeignet? War ich falsch, kann ein Bayes für mehr als eine wahre / falsche Art von Operation verwendet werden.

  2. Welche Merkmalsextraktion sollte ich für eine solche Aufgabe verfolgen? Ich erwarte nicht viel von den Bigrams.

Jedes Dokument enthält auch einige Zitate, darunter Autor / en, ein Autoren Geschlecht von m, f, mix (m & amp; f) und andere (Gov't inst et al.), Dokumententyp, Veröffentlichungsdatum (16 bis heute), menschlicher Analytiker und einige andere allgemeine Elemente. Ich würde auch einige nützliche deskriptive Aufgaben zu schätzen wissen, die helfen, diese Daten besser zu untersuchen für Gender-Bias, Analysten-Bias, etc. Aber realisieren Sie, dass das etwas über den Rahmen dieser Frage hinausgeht.

    
matchew 12.10.2011, 15:52
quelle

2 Antworten

10
  

Welche Art von Klassifizierer wäre für diese Aufgabe geeignet? War ich falsch, kann ein Bayes für mehr als eine echte / falsche Art von Operation verwendet werden.

Sie können ganz einfach einen Multilabel-Klassifikator erstellen. Erstellen eines separaten binären Klassifikators für jede Klasse , der zwischen dieser Klasse und allen anderen Klassen unterscheiden kann. Die Klassen, für die der entsprechende Klassifikator einen positiven Wert ergibt, sind die Ausgabe des kombinierten Klassifikators. Sie können Naive Bayes für diesen oder jeden anderen Algorithmus verwenden. (Sie könnten auch Tricks mit der Wahrscheinlichkeitsausgabe von NB und einem Schwellenwert spielen, aber die Wahrscheinlichkeitsschätzungen von NB sind notorisch schlecht; nur die Rangfolge unter ihnen ist es, was sie wertvoll macht.)

  

Welche Merkmalsextraktion soll ich für eine solche Aufgabe verfolgen?

Für die Textklassifizierung ist bekannt, dass tf-idf-Vektoren gut funktionieren, aber Sie haben nicht angegeben, was die genaue Aufgabe ist. Alle Metadaten zu den Dokumenten funktionieren möglicherweise ebenfalls. Versuchen Sie es mit einer einfachen statistischen Analyse. Wenn eine Eigenschaft der Daten in einigen Klassen häufiger vorhanden ist als in anderen, kann dies eine nützliche Funktion sein.

    
Fred Foo 13.10.2011, 10:28
quelle
0

Ich verstehe, dass Sie hier zwei Aufgaben lösen müssen. Der erste ist, dass Sie einen Artikel basierend auf seinem Thema (?) Taggen wollen und somit der Artikel in mehr als eine Kategorien / Klassen klassifiziert werden kann und Sie somit ein Multi-Label-Klassifikationsproblem haben. Es gibt mehrere Algorithmen, die zur Lösung eines Multi-Label-Klassifikationsproblems vorgeschlagen werden - bitte lesen Sie die Literatur. Ich fand dieses Papier sehr hilfreich, wenn ich mich mit einem ähnlichen Problem befasste: Ссылка

Das zweite Problem, das Sie lösen wollen, ist, das Papier mit Autoren, Geschlecht, Dokumenttyp zu versehen. Dies ist ein Mehrklassenproblem - jede Klasse hat mehr als zwei mögliche Werte, aber alle Dokumente haben einige Werte für diese Klassen.

Ich denke, als ersten Schritt ist es wichtig, die Unterschiede zwischen Multi-Class- und Multi-Label-Klassifizierung zu verstehen.

    
girl 15.05.2015 12:00
quelle