Wie finde ich die Domain von Wörtern mit dem nltk Python-Modul und WordNet ?
Angenommen, ich habe Wörter wie (Transaktion, Demand Draft, Scheck, Sparbuch) und die Domain für all diese Wörter ist "BANK". Wie können wir dies mit nltk und WordNet in Python bekommen?
Ich versuche Hypernym- und Hyponym-Beziehung:
Zum Beispiel:
%Vor%und
%Vor%Im Princeton WordNet gibt es weder explizite Domaininformationen noch die WN-API der NLTK.
Ich würde empfehlen, dass Sie eine Kopie der WordNet-Domain-Ressource erhalten und dann Ihre Synsets mit den Domains verknüpfen, siehe Ссылка
Nachdem Sie sich registriert und den Download abgeschlossen haben, sehen Sie eine wn-domains-3.2-20070223
Textdatei, eine durch Tabulatoren getrennte Datei mit der ersten Spalte der Offset-PartofSpeech-Kennung und die zweite Spalte die durch Leerzeichen getrennten Domain-Tags, zB
Dann verwenden Sie das folgende Skript, um auf die Domäne (n) von Synsets zuzugreifen:
%Vor% Suchen Sie auch nach wn-affect
, das sehr nützlich ist, um Wörter für Sentiment innerhalb der WordNet-Domain-Ressource zu disambiguieren.
Mit aktualisiertem NLTK v3.0 kommt es mit dem Open Multilingual WordNet ( Ссылка ) und seit Die französischen Synsets verwenden dieselben Offset-IDs. Sie können das WND einfach als übergreifende Ressource verwenden. Die Namen der französischen Lemma können wie folgt abgerufen werden:
%Vor% Beachten Sie, dass die neueste Version von NLTK synset-Eigenschaften in "get" -Funktionen ändert: Synset.offset
- & gt; Synset.offset()