nlp

Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz, bei dem nützliche Informationen aus natürlichsprachlichen Daten transformiert oder extrahiert werden. Methoden umfassen maschinelles Lernen und regelbasierte Ansätze.
5
Antworten

Wie parse ich eine Liste von Wörtern nach einer vereinfachten Grammatik?

Nur zur Klarstellung, das sind keine Hausaufgaben. Ich wurde um Hilfe gebeten und bin dazu nicht in der Lage, also wurde es zu einer persönlichen Aufgabe, um es zu lösen. Stellen Sie sich vor, Sie haben eine Grammatik für einen englischen Sat...
18.10.2011, 07:02
3
Antworten

nltk Tokenization und Kontraktionen

Ich zerteile Text mit nltk, nur Sätze, die an wordpunct_tokenizer übergeben werden. Dies teilt Kontraktionen (z. B. 'nicht' zu 'don' + '' '+' t '), aber ich möchte sie als ein Wort behalten. Ich verfeinere meine Methoden für eine genauere und pr...
05.07.2012, 19:32
3
Antworten

NLTK andere Sprache POS-Tagger

Ich verwende das nltk-Modul in Python und ich versuche, dies für das POS-Tagging verschiedener Sprachen zu verwenden. Es gibt viele Informationen darüber, wie Sie Ihren eigenen POS-Tagger in verschiedenen Sprachen trainieren können - gibt es...
22.12.2014, 14:00
2
Antworten

Generelles Synonym und Teil der Sprachverarbeitung mit nltk

Ich versuche, einen allgemeinen Synonym-Bezeichner für die Wörter in einem Satz zu erstellen, die signifikant sind (d. h. nicht "a" oder "the"), und ich benutze das natürliche Sprache-Toolkit (nltk) in Python dafür. Das Problem, das ich habe, is...
12.06.2012, 22:01
1
Antwort

Italienisch stemming Bibliothek in Java

Ich suche eine Java-Bibliothek oder etwas, um die italienischen Wortketten zu stempeln. Das Ziel ist es, italienische Wörter zu vergleichen. In diesem Moment werden Wörter wie "Attacco", "Attacchi", "Attaccare" usw. als unterschiedlich angese...
14.11.2012, 14:45
4
Antworten

Regexp zum Tokenisieren von englischem Text

Was wäre der beste reguläre Ausdruck für die Tokenisierung eines englischen Textes? Mit einem englischen Token meine ich ein Atom, das aus einer maximalen Anzahl von Zeichen besteht, die sinnvollerweise für NLP-Zwecke verwendet werden können....
13.09.2010, 19:56
2
Antworten

Extrahierendes Substantiv + Nomen oder (Adj.) + Substantiv von Text

Ich möchte abfragen, ob es möglich ist, Substantiv + Substantiv oder (adj | Substantiv) + Nomen in R-Paket openNLP zu extrahieren, das heißt, ich würde linguistisches Filtern verwenden, um Kandidat-Nominalphrasen zu extrahieren. Kannst du mir sa...
05.01.2011, 03:34
2
Antworten

Multilingual NLTK für POS Tagging und Lemmatizer

Kürzlich habe ich mich an das NLP gewandt und versucht, NLTK und TextBlob zum Analysieren von Texten. Ich möchte eine App entwickeln, die Bewertungen von Reisenden analysiert und so viele Texte in verschiedenen Sprachen verwalten muss. Ich m...
23.09.2015, 13:29
3
Antworten

Basic NLP in CoffeeScript oder JavaScript - Punkt tokenizaton, einfach trainierte Bayes-Modelle - wo fange ich an?

Mein aktuelles Web-App-Projekt verlangt nach etwas NLP: Tokenisierung von Texten in Sätze, über Punkt und ähnliches; Unterbrechen der längeren Sätze durch Nebensatz (oft ist es Komma, außer wenn es nicht ist) Ein Bayes-Modell, das sich f...
15.03.2012, 13:54
1
Antwort

Steigern Sie die Leistung des Stanford-Tagger-basierten Programms

Ich habe gerade ein Programm implementiert, das den Stanford POS-Tagger in Java verwendet. Ich habe eine Eingabedatei von einigen KB Größe verwendet, die aus ein paar hundert Wörtern besteht. Ich habe sogar die Größe des Heapspeichers auf 600...
31.03.2013, 06:53