Ich verwende das nltk-Modul in Python und ich versuche, dies für das POS-Tagging verschiedener Sprachen zu verwenden.
Es gibt viele Informationen darüber, wie Sie Ihren eigenen POS-Tagger in verschiedenen Sprachen trainieren können - gibt es eine Datenbank mit wirklich robusten, gut gebauten und getesteten NLTK-POS-Taggern für verschiedene Sprachen? (Es ist sehr einfach, POS-Tagger mit dem Pickle-Modul zu exportieren)
Sie finden robuste und gut gebaute und getestete NLTK Corpora bei Ссылка
Sie können andere Korpora finden, aber diese sind die besten
Wenn Sie nicht nur NLTK verwenden, können Sie unser robustes und sprachunabhängiges POS-Tagging-Toolkit RDRPOSTagger ausprobieren.
(Lizenz: GPLv2; Programmiersprache: Python & amp; Java)
RDRPOSTagger erhält eine schnelle Leistung sowohl beim Lern- als auch beim Markierungsprozess. Darüber hinaus erzielt RDRPOSTagger eine sehr wettbewerbsfähige Genauigkeit im Vergleich zum Stand der Technik.
Aktualisiert am 18.11.2015: Veröffentlichung der Version 1.2 mit verbesserter Tagging-Genauigkeit, insbesondere bei morphologisch reichen Sprachen. In diesem Whitepaper finden Sie die experimentellen Ergebnisse einschließlich der Leistungsgeschwindigkeit und der Genauigkeit der Tagging-Funktion.
RDRPOSTagger unterstützt vortrainierte POS- und morphologische Tagging-Modelle für Bulgarisch, Tschechisch, Niederländisch, Englisch, Französisch, Deutsch, Hindi, Italienisch, Portugiesisch, Spanisch, Schwedisch, Thailändisch und Vietnamesisch. RDRPOSTagger unterstützt auch die vortrainierten Universal POS-Tagging-Modelle für 40 Sprachen.
Soweit ich weiß, gibt es keine solche Datenbank mit robusten, gut gebauten und getesteten POS-Taggern. Ich denke aber, dass es eine gute Idee ist.
Ich habe ein paar Taggers selbst ausprobiert. Für einen großen englischen Korpus habe ich verwendet: Ссылка
Für Spanisch habe ich das in NLTK (cess_esp) enthaltene
verwendet %Vor%Um schnell einfache Taggers zu trainieren, können Sie NLTK Trainer ausprobieren: