Ich benutze NLTK, um Dokumente zu klassifizieren - mit jeweils 1 Etikett, wobei es 10 Arten von Dokumenten gibt.
Für die Textextraktion putze ich Text (Satzzeichen entfernen, HTML-Tag entfernen, lowcasing), entfernen nltk.corpus.stopwords, so...
09.05.2014, 18:39