Im Lichte eines Projekts habe ich mit Python NLTK und Document Classification und dem Naive Bayes Classifier gespielt. Wie ich aus der Dokumentation verstehe, funktioniert das sehr gut, wenn Ihre verschiedenen Dokumente mit pos oder neg als Label (oder mehr als 2 Labels) markiert sind.
Die Dokumente, mit denen ich arbeite, die bereits klassifiziert sind, haben keine Labels, aber sie haben eine Punktzahl, einen Fließkommawert zwischen 0 und 5.
Ich würde gerne einen Klassifikator erstellen, wie das Filmbeispiel in der Dokumentation, aber das würde die Punktzahl eines Stücks Text und nicht das Etikett vorhersagen. Ich glaube, dass dies in den Dokumenten erwähnt wird, aber nie weiter als "Wahrscheinlichkeiten numerischer Merkmale" untersucht wird.
Ich bin kein Sprachexperte und auch kein Statistiker. Wenn jemand ein Beispiel dafür hat, wäre ich sehr dankbar, wenn Sie das mit mir teilen würden. Danke!