Tokenize einen Absatz in Satz und dann in Wörter in NLTK

9

Ich versuche, einen ganzen Absatz in mein Textverarbeitungsprogramm einzugeben, um zuerst in Sätze und dann in Wörter aufgeteilt zu werden.

Ich habe den folgenden Code ausprobiert, aber es funktioniert nicht,

%Vor%

aber das funktioniert nicht und gibt mir Fehler. Also, wie mache ich Absätze in Sätze und dann Wörter?

Ein Beispiel-Absatz:

Dieses Ding schien den kleinen dunkelbraunen Hund zu überwältigen und zu überraschen und verletzte ihn am Herzen. Er sank verzweifelt vor den Füßen des Kindes nieder. Als der Schlag zusammen mit einer Ermahnung in kindlichen Sätzen wiederholt wurde, drehte er sich auf seinem Rücken um und hielt seine Pfoten in einer eigenartigen Weise. Zur gleichen Zeit bot er dem Kind mit seinen Ohren und Augen ein kleines Gebet an.

** ACHTUNG: ** Dies ist nur ein zufälliger Text aus dem Internet, ich besitze den obigen Inhalt nicht.

    
Nikhil Raghavendra 03.06.2016, 04:03
quelle

2 Antworten

9

Sie wollten wahrscheinlich eine Schleife über sent_text :

machen %Vor%     
slider 03.06.2016, 04:18
quelle
0

Hier ist eine kürzere Version. Dies gibt Ihnen eine Datenstruktur mit jedem einzelnen Satz und jedem Token innerhalb des Satzes. Ich bevorzuge den TweetTokenizer für unordentliche, reale Weltsprache. Der Satz-Tokenizer wird als annehmbar angesehen, aber seien Sie vorsichtig, Ihren Wortfall erst nach diesem Schritt zu senken, da dies die Genauigkeit der Erkennung der Grenzen von unordentlichem Text beeinträchtigen kann.

%Vor%

Hier ist, wie die Ausgabe aussieht, die ich aufgeräumt habe, damit die Struktur auffällt:

%Vor%     
Brian Cugelman 25.12.2017 01:39
quelle

Tags und Links