Interpretieren negativer Word2Vec-Ähnlichkeit von Gensim

8

z. Wir trainieren ein Word2vec-Modell mit gensim :

%Vor%

Und wenn wir die Ähnlichkeit zwischen Wörtern abfragen, finden wir negative Ähnlichkeitswerte:

%Vor%

Wie interpretieren wir die negativen Bewertungen?

Wenn es eine Kosinusähnlichkeit ist, sollte der Bereich nicht [0,1] sein?

Was ist die Ober- und Untergrenze der Funktion Word2Vec.similarity(x,y) ? In den Dokumenten ist nicht viel geschrieben: Ссылка = (

Beim Betrachten des Python-Wrapper-Codes gibt es nicht viel: Ссылка

(Wenn möglich, weisen Sie mich bitte auf den Code .pyx , in dem die Ähnlichkeitsfunktion implementiert ist.)

    
alvas 22.02.2017, 03:00
quelle

2 Antworten

5

Die Kosinusähnlichkeit reicht von -1 bis 1, wie bei einer regulären Kosinuswelle.

Wie für die Quelle:

Ссылка

%Vor%     
Eugene K 01.03.2017, 05:03
quelle
-1

Wie andere gesagt haben, kann die Kosinusähnlichkeit von -1 bis 1 reichen, basierend auf dem Winkel zwischen den beiden verglichenen Vektoren. Die genaue Implementierung in Gensim ist ein einfaches Skalarprodukt der normalisierten Vektoren.

Ссылка

%Vor%

Im Hinblick auf die Interpretation können Sie sich diese Werte vorstellen, so wie Sie vielleicht an Korrelationskoeffizienten denken. Ein Wert von 1 ist eine perfekte Beziehung zwischen Wortvektoren (z. B. "Frau" im Vergleich zu "Frau"), ein Wert von 0 stellt keine Beziehung zwischen Wörtern dar, und ein Wert von -1 stellt eine perfekte gegensätzliche Beziehung zwischen Wörtern dar.

    
Donovan McMurray 07.03.2017 03:12
quelle