NLTK: Dokumentklassifikation mit numerischem Score anstelle von Labels

8

Im Lichte eines Projekts habe ich mit Python NLTK und Document Classification und dem Naive Bayes Classifier gespielt. Wie ich aus der Dokumentation verstehe, funktioniert das sehr gut, wenn Ihre verschiedenen Dokumente mit pos oder neg als Label (oder mehr als 2 Labels) markiert sind.

Die Dokumente, mit denen ich arbeite, die bereits klassifiziert sind, haben keine Labels, aber sie haben eine Punktzahl, einen Fließkommawert zwischen 0 und 5.

Ich würde gerne einen Klassifikator erstellen, wie das Filmbeispiel in der Dokumentation, aber das würde die Punktzahl eines Stücks Text und nicht das Etikett vorhersagen. Ich glaube, dass dies in den Dokumenten erwähnt wird, aber nie weiter als "Wahrscheinlichkeiten numerischer Merkmale" untersucht wird.

Ich bin kein Sprachexperte und auch kein Statistiker. Wenn jemand ein Beispiel dafür hat, wäre ich sehr dankbar, wenn Sie das mit mir teilen würden. Danke!

    
user1765949 22.10.2012, 16:22
quelle

2 Antworten

1

Was Sie suchen, ist lineare Regression, und scikit-learn ist dafür viel besser als NLTK, siehe Ссылка

    
Jacob 24.10.2012 00:05
quelle
0

Das ist eine sehr späte Antwort, aber vielleicht hilft es jemandem.

Was Sie fragen, ist Regression. In Bezug auf Jacobs Antwort ist die lineare Regression nur eine Möglichkeit, dies zu tun. Allerdings stimme ich seiner Empfehlung von scikit-learn zu.

    
herdrick 26.03.2013 00:52
quelle

Tags und Links