nltk Tokenization und Kontraktionen

8

Ich zerteile Text mit nltk, nur Sätze, die an wordpunct_tokenizer übergeben werden. Dies teilt Kontraktionen (z. B. 'nicht' zu 'don' + '' '+' t '), aber ich möchte sie als ein Wort behalten. Ich verfeinere meine Methoden für eine genauere und präzisere Tokenisierung von Text, daher muss ich tiefer in das Tokenisierungsmodul nltk eintauchen, das über die einfache Tokenisierung hinausgeht.

Ich schätze, das ist normal und ich hätte gerne Feedback von anderen, die sich vielleicht vorher mit dem speziellen Problem auseinandersetzen mussten.

bearbeiten:

Ja, das ist eine allgemeine Spritzerfrage, die ich kenne

Muss ich mich als Neuling für nlp überhaupt Gedanken über Kontraktionen machen?

BEARBEITEN:

Der SExprTokenizer oder TreeBankWordTokenizer scheint zu tun, wonach ich suche.

    
blueblank 05.07.2012, 19:32
quelle

3 Antworten

7

Welchen Tokenizer Sie verwenden, hängt davon ab, was Sie als nächstes tun möchten. Wie in InspectorG4dget bereits gesagt wurde, gehen manche Sprachteile mit Splitterkontraktionen um, und in diesem Fall ist das Splitten eine gute Sache. Aber vielleicht willst du das nicht. Um zu entscheiden, welcher Tokenizer der beste ist, überlegen Sie, was Sie für den nächsten Schritt benötigen, und senden Sie Ihren Text dann an Ссылка , um zu sehen wie sich jeder NLTK-Tokenizer verhält.

    
Jacob 06.07.2012, 01:39
quelle
1

Ich habe schon früher mit NLTK an diesem Projekt gearbeitet. Als ich das tat, stellte ich fest, dass Kontraktionen nützlich waren, um darüber nachzudenken.

Ich habe jedoch keinen benutzerdefinierten Tokenizer geschrieben. Ich habe ihn einfach nach dem POS-Tagging behandelt.

Ich vermute, das ist nicht die Antwort, die Sie suchen, aber ich hoffe, es hilft etwas

    
inspectorG4dget 05.07.2012 19:54
quelle
1

Da die Anzahl der Kontraktionen sehr gering ist, ist es eine Möglichkeit, alle Kontraktionen zu diesem vollständigen Äquivalent zu suchen und zu ersetzen (zB: "nicht tun" oder "nicht tun") und dann die aktualisierten Sätze in die wordpunct_tokenizer.

    
Neodawn 06.07.2012 02:44
quelle

Tags und Links