Was ist das genaueste Open-Source-Werkzeug für die Satzaufteilung? [geschlossen]

8

Ich muss den Text in Sätze aufteilen. Ich spiele gerade mit dem Satzdetektortool von OpenNLP herum. Ich habe auch von NLTK und Stanford CoreNLP Tools gehört. Was sind die genauesten englischen Satzerkennungswerkzeuge da draußen? Ich brauche nicht zu viele NLP-Funktionen - nur ein gutes Werkzeug zur Satzaufteilung / Erkennung.

Ich habe auch von Lucene gehört ... aber das ist vielleicht zu viel. Aber wenn es ein Kick-Ass Satzerkennungsmodul hat, dann werde ich es verwenden.

    
samxli 14.03.2011, 16:48
quelle

3 Antworten

2

NLTK enthält eine Implementierung des Punkt-Tokenizers, der in diesem Papier beschrieben ist. Ich weiß nicht, ob es das absolut Beste ist, aber es ist sehr, sehr gut, es ist leicht und einfach zu bedienen und es ist kostenlos.

    
rmalouf 15.03.2011 04:20
quelle
1

Überprüfen Sie die Implementierung von lingpipe Ссылка

Ihr Modell ist ziemlich mächtig und einfach zu implementieren - überprüfen Sie einige Pre / Post-Regeln (aka regexps) bei jeder möglichen Satzaufteilung und das ist alles. Ich fand es besser als eines in GATE und OpenNLP.

Es gibt ein anderes Open-Source-Projekt, das dieses heuristische Modell als Beispiel unterstützt, Ссылка

    
yura 14.03.2011 20:39
quelle
-4

Perl ist eine Textverarbeitungssprache, die eine ausgezeichnete und einfache Ressource für Text Mining ist. Es hat absolut kein Problem, Satzteilung zu machen.

www.perl.org

    
Ralph Winters 15.03.2011 02:37
quelle

Tags und Links