Wie kann ich mit Python NLTK Kollokationen zwischen einzelnen Zeichen identifizieren?

Question

Wie kann ich mit Python NLTK Kollokationen zwischen einzelnen Zeichen identifizieren?

8

Ich möchte NLTK verwenden, um Kollokationen zwischen bestimmten Kanji-Zeichen in Japanisch und Hanzi-Zeichen auf Chinesisch zu identifizieren. Wie bei Wortkollokationen sind einige Sequenzen chinesischer Zeichen weitaus wahrscheinlicher als andere. Beispiel: Viele Wörter in Chinesisch und Japanisch sind Zwei-Zeichen-Bigramme - Zeichen A und Zeichen B (z. B. 日本 = Japan, ni-hon auf Japanisch und ri-ben auf Chinesisch) ). Bei gegebenem Zeichen A (日) ist es viel wahrscheinlicher, dass 本 als Zeichen B angezeigt wird. Die Zeichen 日 und 本 sind also Kollokationen.

Ich möchte NLTK verwenden, um Antworten auf diese Fragen zu finden:

(1) Bei gegebenem Zeichen A, welche Zeichen sind am ehesten Zeichen B?

(2) Gibt es bei Buchstabe B die Frage, welche Zeichen am ehesten Zeichen A sind?

(3) Wie wahrscheinlich sind Buchstabe A und Buchstabe B zusammen in einem Satz, auch wenn sie nicht nebeneinander erscheinen?

In Verbindung damit: Wenn ich eine Häufigkeitsliste von Kanji / Hanzi habe, kann ich das NLTK-Kollokationsmodul zwingen, nur die Beziehungen zwischen den Kanji / Hanzi in meiner Liste zu untersuchen und alle anderen Zeichen zu ignorieren? Dies würde Ergebnisse herausfiltern, in denen einzelne römische Buchstaben (a, b, c usw.) oder Interpunktionszeichen in der Menge möglicher Kollokationen berücksichtigt werden.

Leider die Dokumentation , , und Quelle code für nltk.collocations und das NLTK-Buch diskutieren nur Englisch-NLP und verständlicherweise nicht adressieren Sie die Frage der Einzelzeichen-Kollokationen. Funktionen im Modul nltk.collocations scheinen einen eingebauten Wort-Tokenizer zu haben, daher denke ich, dass sie standardmäßig einzelne Zeichen ignorieren.

UPDATE: Der folgende Code scheint auf der richtigen Spur zu sein:

%Vor%

Ergebnisse:

%Vor%

Aus irgendeinem Grund scheint BigramCollocationFinder die einzelnen Zeichen in meinem japanischen Beispieltext als Kandidaten für Bigramm-Kollokationen zu behandeln. Ich bin mir immer noch nicht sicher, wie ich aus diesem Ergebnis den nächsten Schritt machen soll, um die oben gestellten Fragen zu beantworten.

python string nlp nltk linguistics

WordBrewery 23.04.2017, 20:28

quelle

1 Antwort

Tags und Links python string nlp nltk linguistics

Django: Verwenden von Annotate, Count und Distinct in einem Queryset Definiere CakePHP Route zum Aufruf eines bestimmten Controllers, wenn die angegebene Aktion nicht existiert

score 4 · Answer 1

Die meisten wahrscheinlich sind Sie nicht mit dem Grame Teil der Aufgabe stecken, sondern, wie die Daten zu reinigen, so dass Sie Kanji Worte aus dem Chaos von anderen Zeichen zu bekommen.

Hier ist ein Hack, aber es wird erfordert die charguana Bibliothek:

%Vor%

[in]:

荒川支流である滝川の支流となっている. 流路延長は 5,0 キロメートル, 流域面積は 9.8 平方キロメートルである. 流域は全て山地に属している. 奥秩父を代表する沢登りスポットとなっている. 流路にはホチの滝 · トオの滝のほか, 鍾乳洞「瀧谷洞」がある. 昭和初期には原全教が「奥秩父」に豆焼川の紀行文を残している.

[out]:

%Vor%