nltk

Das Natural Language Toolkit ist eine Python-Bibliothek für Computerlinguistik.
3
Antworten

NLTK Kollokationen für bestimmte Wörter

Ich weiß, wie man Bigramm- und Trigramm-Kollokationen mithilfe von NLTK erstellt und sie auf meine eigenen Korpora anwendet. Der Code ist unten. Ich bin mir aber nicht sicher (1), wie man die Kollokationen für ein bestimmtes Wort bekommt? (2)...
16.01.2014, 15:18
5
Antworten

Wann sind N-Gramme (n3) wichtig im Gegensatz zu Bigrammen oder Trigrammen?

Ich frage mich nur, was n-gramm (n & gt; 3) (und ihre Häufigkeit des Auftretens) unter Berücksichtigung des Berechnungsaufwands bei deren Berechnung ist. Gibt es Anwendungen, bei denen Bigramme oder Trigramme einfach nicht ausreichen? Wenn ja...
23.04.2012, 18:20
2
Antworten

Ist das POS-Tagging deterministisch?

Ich habe versucht, meinen Kopf darum zu drehen, warum das passiert, aber ich hoffe, dass jemand etwas Licht in diese Sache bringen kann. Ich versuche, den folgenden Text zu markieren: %Vor% mit dem folgenden Code: %Vor% und bekomme folge...
30.06.2011, 21:11
2
Antworten

NLTK / NLP, das einen Viele-zu-Viele / Multi-Label-Subjekt-Klassifikator enthält

Ich habe ein menschliches etikettiertes Korpus von über 5000 indizierten Dokumenten in XML. Sie variieren in der Größe von ein paar hundert Kilobytes bis zu ein paar hundert Megabyte. Kurze Artikel zu Manuskripten sein. Sie wurden alle so tief w...
12.10.2011, 15:52
1
Antwort

Zerlegen / Zerlegen komplexer und zusammengesetzter Sätze in nltk

Gibt es eine Möglichkeit, komplexe Sätze in nltk oder andere Bibliotheken zur Verarbeitung natürlicher Sprache in einfache Sätze zu zerlegen? Zum Beispiel: Der Park ist so wunderschön, wenn die Sonne untergeht und eine kühle Brise weht ==...
17.08.2010, 10:22
3
Antworten

Wie man pos_tag_sents () effizient auf Pandas Dataframe anwendet

In Situationen, in denen Sie eine in einem Pandas-Datenrahmen gespeicherte Spalte mit 1 Satz pro Zeile markieren möchten, verwenden die meisten Implementierungen auf SO die Methode apply %Vor% Die NLTK-Dokumentation empfiehlt die Verwendung...
16.01.2017, 10:46
1
Antwort

Erstellen einer Liste von Antonymen für Adjektive in WordNet mit Python

Ich möchte das Folgende in Python machen (Ich habe die NLTK-Bibliothek, aber ich bin nicht großartig mit Python, also habe ich folgendes in einem seltsamen Pseudocode geschrieben): %Vor% Damit kann ich ein komplettes Wörterbuch von Antonymen...
12.06.2014, 19:59
1
Antwort

NLTK-Word-Tokenize-Verhalten für doppelte Anführungszeichen ist verwirrend

%Vor% Sehen Sie, wie sich " zu einem Double '' und '' ? ändert Was passiert hier? Warum verändert es den Charakter? Gibt es eine Lösung? Da ich später nach jedem Token in der Zeichenfolge suchen muss. Python 2.7.6, wenn es einen Unte...
24.08.2015, 14:40
2
Antworten

Tokenize einen Absatz in Satz und dann in Wörter in NLTK

Ich versuche, einen ganzen Absatz in mein Textverarbeitungsprogramm einzugeben, um zuerst in Sätze und dann in Wörter aufgeteilt zu werden. Ich habe den folgenden Code ausprobiert, aber es funktioniert nicht, %Vor% aber das funktioniert n...
03.06.2016, 04:03
3
Antworten

nltk Tokenization und Kontraktionen

Ich zerteile Text mit nltk, nur Sätze, die an wordpunct_tokenizer übergeben werden. Dies teilt Kontraktionen (z. B. 'nicht' zu 'don' + '' '+' t '), aber ich möchte sie als ein Wort behalten. Ich verfeinere meine Methoden für eine genauere und pr...
05.07.2012, 19:32