Wie kann ich in NLTK mehr Sprachen zu Stoppwörtern hinzufügen?

8

Ich verwende NLTK mit Stoppwörtern, um die Sprache eines Dokuments mit der von Alejandro Nolla beschriebenen Methode zu erkennen. Ссылка , und es funktioniert ziemlich gut.

Ich arbeite auch mit einigen zusätzlichen Sprachen, die nicht im NLTK-Stoppwörterpaket enthalten sind, wie zum Beispiel Tschechisch und Rumänisch, und sie erhalten falsche Übereinstimmungen wie andere Sprachen. Dies sind die Sprachen in Stoppworten:

['dänisch', 'holländisch', 'englisch', 'finnisch', 'französisch', 'deutsch', 'ungarisch', 'italienisch', 'norwegisch', 'portugiesisch', 'russisch', 'spanisch ',' schwedisch ',' türkisch ']

Wie kann ich die Liste der von NLTK unterstützten Sprachen erweitern? Gibt es andere Stoppwortlisten, die ich hinzufügen kann? Gibt es eine dokumentierte Methode, die ich verwenden kann, um eine eigene Stoppwortliste hinzuzufügen?

    
Jason Champion 26.01.2014, 18:58
quelle

1 Antwort

5

Googeln nach "rumänischen Stoppwörtern" bringt eine große Anzahl von Ressourcen hervor.

Wenn Sie das selbst machen wollen, müssen Sie einfach Wörter finden, die in allen Textgattungen üblich sind. (Der Artikel, zu dem Sie verlinken, hat eine ziemlich schlechte Erklärung dafür, was Stoppwörter sind.) Gute Kandidaten sind Artikel, Teilchen (wenn Ihre Sprache sie hat und sie isoliert auftreten), Konjunktionen, Pronomen und einige Arten von Adverbien. p>

Automatisches Erstellen einer Stoppwortliste für ein Information Retrieval System (Rachel Tsz- Wai Lo, Ben He, Iadh Ounis; Universität von Glasgow, 2008) (PDF) dokumentiert eine automatische Methode zum Auffinden von Stoppwörtern. Ich habe die Methode oder ihre Ergebnisse nicht betrachtet.

Ссылка scheint eine Implementierung zu haben. (Der Kommentar hat andere Namen als der Artikel; nicht sicher, was damit los ist.)

    
tripleee 27.01.2014, 04:59
quelle

Tags und Links