Ich muss den Text in Sätze aufteilen. Ich spiele gerade mit dem Satzdetektortool von OpenNLP herum. Ich habe auch von NLTK und Stanford CoreNLP Tools gehört. Was sind die genauesten englischen Satzerkennungswerkzeuge da draußen? Ich brauche nicht zu viele NLP-Funktionen - nur ein gutes Werkzeug zur Satzaufteilung / Erkennung.
Ich habe auch von Lucene gehört ... aber das ist vielleicht zu viel. Aber wenn es ein Kick-Ass Satzerkennungsmodul hat, dann werde ich es verwenden.
NLTK enthält eine Implementierung des Punkt-Tokenizers, der in diesem Papier beschrieben ist. Ich weiß nicht, ob es das absolut Beste ist, aber es ist sehr, sehr gut, es ist leicht und einfach zu bedienen und es ist kostenlos.
Überprüfen Sie die Implementierung von lingpipe Ссылка
Ihr Modell ist ziemlich mächtig und einfach zu implementieren - überprüfen Sie einige Pre / Post-Regeln (aka regexps) bei jeder möglichen Satzaufteilung und das ist alles. Ich fand es besser als eines in GATE und OpenNLP.
Es gibt ein anderes Open-Source-Projekt, das dieses heuristische Modell als Beispiel unterstützt, Ссылка
Perl ist eine Textverarbeitungssprache, die eine ausgezeichnete und einfache Ressource für Text Mining ist. Es hat absolut kein Problem, Satzteilung zu machen.
www.perl.org