Ich versuche, meine Pipeline in NLP mit sklearn zu stemming hinzuzufügen.
%Vor% Wenn diese Pipeline mit dem CountVectorizer von sklearn verwendet wird, funktioniert es. Und wenn ich die Funktionen manuell erstelle, funktioniert das auch.
BEARBEITEN :
Wenn ich diese Pipeline auf meinem IPython-Notebook ausprobiere, wird das [*] angezeigt und nichts passiert. Wenn ich mein Terminal ansehe, gibt es diesen Fehler:
Beispiel
Hier ist das vollständige Beispiel
%Vor%Wenn Sie stemming von den Parametern entfernen, funktioniert es sonst funktioniert es nicht.
AKTUALISIEREN :
Das Problem scheint im Parallelisierungsprozess zu liegen, denn beim Entfernen von n_jobs = -1 verschwindet das Problem.
Ich weiß, dass ich etwas spät dran bin, meine Antwort zu posten. Aber hier ist es, falls jemand Hilfe braucht.
Nachstehend finden Sie den saubersten Ansatz zum Hinzufügen eines Sprachen-Stemmers zum Zählen des Vektorisierers durch Überschreiben von build_analyser()
Sie können fit
und transform
Funktionen der CountVectorizer Klasse über Ihr vectorizer_s
Objekt
Tags und Links python nlp scikit-learn