stemming Unterstützung für CountVectorizer (sklearn) hinzufügen

8

Ich versuche, meine Pipeline in NLP mit sklearn zu stemming hinzuzufügen.

%Vor%

Wenn diese Pipeline mit dem CountVectorizer von sklearn verwendet wird, funktioniert es. Und wenn ich die Funktionen manuell erstelle, funktioniert das auch.

%Vor%

BEARBEITEN :

Wenn ich diese Pipeline auf meinem IPython-Notebook ausprobiere, wird das [*] angezeigt und nichts passiert. Wenn ich mein Terminal ansehe, gibt es diesen Fehler:

%Vor%

Beispiel

Hier ist das vollständige Beispiel

%Vor%

Wenn Sie stemming von den Parametern entfernen, funktioniert es sonst funktioniert es nicht.

AKTUALISIEREN :

Das Problem scheint im Parallelisierungsprozess zu liegen, denn beim Entfernen von n_jobs = -1 verschwindet das Problem.

    
dooms 23.03.2016, 15:37
quelle

3 Antworten

15

Sie können einen Aufruf als analyzer an den Konstruktor CountVectorizer übergeben, um einen benutzerdefinierten Analysator bereitzustellen. Dies scheint für mich zu funktionieren.

%Vor%

Druckt aus:

%Vor%     
joeln 24.03.2016 00:46
quelle
7

Ich weiß, dass ich etwas spät dran bin, meine Antwort zu posten. Aber hier ist es, falls jemand Hilfe braucht.

Nachstehend finden Sie den saubersten Ansatz zum Hinzufügen eines Sprachen-Stemmers zum Zählen des Vektorisierers durch Überschreiben von build_analyser()

%Vor%

Sie können fit und transform Funktionen der CountVectorizer Klasse über Ihr vectorizer_s Objekt

frei aufrufen     
Parth Gupta 29.12.2016 10:11
quelle
1

Sie können versuchen:

%Vor%

und entfernen Sie die Methode __init__ .

    
Till 23.03.2016 16:17
quelle

Tags und Links