NLTK andere Sprache POS-Tagger

8

Ich verwende das nltk-Modul in Python und ich versuche, dies für das POS-Tagging verschiedener Sprachen zu verwenden.

Es gibt viele Informationen darüber, wie Sie Ihren eigenen POS-Tagger in verschiedenen Sprachen trainieren können - gibt es eine Datenbank mit wirklich robusten, gut gebauten und getesteten NLTK-POS-Taggern für verschiedene Sprachen? (Es ist sehr einfach, POS-Tagger mit dem Pickle-Modul zu exportieren)

    
par 22.12.2014, 14:00
quelle

3 Antworten

4

Sie finden robuste und gut gebaute und getestete NLTK Corpora bei Ссылка

Sie können andere Korpora finden, aber diese sind die besten

    
shadab.tughlaq 23.12.2014, 09:50
quelle
3

Wenn Sie nicht nur NLTK verwenden, können Sie unser robustes und sprachunabhängiges POS-Tagging-Toolkit RDRPOSTagger ausprobieren.

(Lizenz: GPLv2; Programmiersprache: Python & amp; Java)

RDRPOSTagger erhält eine schnelle Leistung sowohl beim Lern- als auch beim Markierungsprozess. Darüber hinaus erzielt RDRPOSTagger eine sehr wettbewerbsfähige Genauigkeit im Vergleich zum Stand der Technik.

Aktualisiert am 18.11.2015: Veröffentlichung der Version 1.2 mit verbesserter Tagging-Genauigkeit, insbesondere bei morphologisch reichen Sprachen. In diesem Whitepaper finden Sie die experimentellen Ergebnisse einschließlich der Leistungsgeschwindigkeit und der Genauigkeit der Tagging-Funktion.

RDRPOSTagger unterstützt vortrainierte POS- und morphologische Tagging-Modelle für Bulgarisch, Tschechisch, Niederländisch, Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch, Schwedisch, Thailändisch und Vietnamesisch. RDRPOSTagger unterstützt auch die vortrainierten Universal POS-Tagging-Modelle für 40 Sprachen.

    
NQD 03.08.2015 06:27
quelle
1

Soweit ich weiß, gibt es keine solche Datenbank mit robusten, gut gebauten und getesteten POS-Taggern. Ich denke aber, dass es eine gute Idee ist.

Ich habe ein paar Taggers selbst ausprobiert. Für einen großen englischen Korpus habe ich verwendet: Ссылка

Für Spanisch habe ich das in NLTK (cess_esp) enthaltene

verwendet %Vor%

Um schnell einfache Taggers zu trainieren, können Sie NLTK Trainer ausprobieren:

Ссылка

    
bogs 23.12.2014 11:39
quelle

Tags und Links