z. Wir trainieren ein Word2vec-Modell mit gensim
:
Und wenn wir die Ähnlichkeit zwischen Wörtern abfragen, finden wir negative Ähnlichkeitswerte:
%Vor%Wie interpretieren wir die negativen Bewertungen?
Wenn es eine Kosinusähnlichkeit ist, sollte der Bereich nicht [0,1]
sein?
Was ist die Ober- und Untergrenze der Funktion Word2Vec.similarity(x,y)
? In den Dokumenten ist nicht viel geschrieben: Ссылка = (
Beim Betrachten des Python-Wrapper-Codes gibt es nicht viel: Ссылка
(Wenn möglich, weisen Sie mich bitte auf den Code .pyx
, in dem die Ähnlichkeitsfunktion implementiert ist.)
Wie andere gesagt haben, kann die Kosinusähnlichkeit von -1 bis 1 reichen, basierend auf dem Winkel zwischen den beiden verglichenen Vektoren. Die genaue Implementierung in Gensim ist ein einfaches Skalarprodukt der normalisierten Vektoren.
%Vor%Im Hinblick auf die Interpretation können Sie sich diese Werte vorstellen, so wie Sie vielleicht an Korrelationskoeffizienten denken. Ein Wert von 1 ist eine perfekte Beziehung zwischen Wortvektoren (z. B. "Frau" im Vergleich zu "Frau"), ein Wert von 0 stellt keine Beziehung zwischen Wörtern dar, und ein Wert von -1 stellt eine perfekte gegensätzliche Beziehung zwischen Wörtern dar.
Tags und Links python nlp similarity word2vec gensim