document-classification, Seitenzahl 1

Dokumentenklassifikation ist der Akt des Zuweisens von Dokumenten aus einem gegebenen Satz von Dokumenten zu irgendeiner einer Anzahl von Klassen, wobei diese Klassen a priori bekannt sind.

Antwort

NLTK - Multi-Label-Klassifizierung

Ich benutze NLTK, um Dokumente zu klassifizieren - mit jeweils 1 Etikett, wobei es 10 Arten von Dokumenten gibt. Für die Textextraktion putze ich Text (Satzzeichen entfernen, HTML-Tag entfernen, lowcasing), entfernen nltk.corpus.stopwords, so...

09.05.2014, 18:39