pos-tagger, Seitenzahl 1

___ tag123java ___ Java (nicht zu verwechseln mit JavaScript oder JScript oder JS) ist eine universelle objektorientierte Programmiersprache, die für die Verwendung in Verbindung mit der Java Virtual Machine (JVM) entwickelt wurde. "Java-Plattform" ist der Name für ein Computersystem, auf dem Tools zum Entwickeln und Ausführen von Java-Programmen installiert sind. Verwenden Sie dieses Tag für Fragen, die sich auf die Java-Programmiersprache oder Java-Plattform-Tools beziehen. ___ qstnhdr ___ Steigern Sie die Leistung des Stanford-Tagger-basierten Programms ___ qstntxt ___

Ich habe gerade ein Programm implementiert, das den Stanford POS-Tagger in Java verwendet.

Ich habe eine Eingabedatei von einigen KB Größe verwendet, die aus ein paar hundert Wörtern besteht. Ich habe sogar die Größe des Heapspeichers auf 600 MB gesetzt.

Aber es ist immer noch langsam und manchmal läuft der Heapspeicher aus. Wie kann ich die Ausführungsgeschwindigkeit und die Speicherleistung erhöhen? Ich würde gerne ein paar MB als Eingabe verwenden können.

%Vor%

___ tag123posttagger ___ Ein Wortbestandteil-Tagger, oder POS-Tagger, ist eine konkrete Implementierung von Algorithmen, die diskrete Ausdrücke sowie verborgene Teile von Sprache in Übereinstimmung mit einer Reihe von beschreibenden Tags, wie z Substantive, Verben, Adjektive, Adverbien und so weiter. Es folgt oft einem Ansatz, der auf Machine Learning (ML) -Techniken basiert. ___ tag123stanfordnlp ___ Suite von Java-Bibliotheken für die Verarbeitung natürlicher Sprache (NLP) von der Stanford University. ___ answer15800786 ___

Der wichtigste erste Ratschlag lautet, den %code% (oder besser, den %code% in neueren Versionen, für allgemeinen Text) anstelle von %code% zu verwenden. Während die Tagging-Leistung des bidirektionalen Taggers fraktional besser ist, ist sie etwa 6 mal langsamer und benötigt etwa doppelt so viel Speicher. Eine Zahl FWIW: Auf einem MacBook Pro 2012, wenn genug Text zum "Aufwärmen" gegeben wurde, markiert der %code% Tagger Text mit ungefähr 35000 Wörtern pro Sekunde.

Der andere Ratschlag zur Speicherbenutzung ist, dass Sie, wenn Sie eine große Menge an Text haben, diese in %code% in Brocken vernünftiger Größe übergeben, nicht alle als ein riesiger String, da dieser ganze String sein wird Tokenized sofort, die Speicheranforderungen hinzufügen.

___ tag123nlp ___ Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz, bei dem nützliche Informationen aus natürlichsprachlichen Daten transformiert oder extrahiert werden. Methoden umfassen maschinelles Lernen und regelbasierte Ansätze. ___

Antworten

Wie man pos_tag_sents () effizient auf Pandas Dataframe anwendet

In Situationen, in denen Sie eine in einem Pandas-Datenrahmen gespeicherte Spalte mit 1 Satz pro Zeile markieren möchten, verwenden die meisten Implementierungen auf SO die Methode apply %Vor% Die NLTK-Dokumentation empfiehlt die Verwendung...

16.01.2017, 10:46

Antworten

Multilingual NLTK für POS Tagging und Lemmatizer

Kürzlich habe ich mich an das NLP gewandt und versucht, NLTK und TextBlob zum Analysieren von Texten. Ich möchte eine App entwickeln, die Bewertungen von Reisenden analysiert und so viele Texte in verschiedenen Sprachen verwalten muss. Ich m...

23.09.2015, 13:29

Antwort

Steigern Sie die Leistung des Stanford-Tagger-basierten Programms

Ich habe gerade ein Programm implementiert, das den Stanford POS-Tagger in Java verwendet. Ich habe eine Eingabedatei von einigen KB Größe verwendet, die aus ein paar hundert Wörtern besteht. Ich habe sogar die Größe des Heapspeichers auf 600...

31.03.2013, 06:53