Initialisierung von Seq2seq-Einbettung mit vortrainiertem word2vec

8

Ich bin daran interessiert, Tensorflow seq2seq Implementierung mit vortrainierten word2vec zu initialisieren.

Ich habe den Code gesehen. Es scheint, dass die Einbettung initialisiert ist

%Vor%

Wie ändere ich das, um mit vortrainiertem word2vec ?? zu initialisieren?

    
skw 22.11.2015, 05:31
quelle

2 Antworten

7

Ich denke, Sie haben Ihre Antwort in der Mailingliste erhalten, aber ich stelle sie hier für die Nachwelt auf.

Ссылка

  

Sie können es zufällig initialisieren und anschließend tun:   session.run (embedding.assign (my_word2vec_matrix))

     

Dies überschreibt die Initialisierungswerte.

Das scheint für mich zu funktionieren. Ich glaube trainable=False wird benötigt, um die Werte fest zu halten?

%Vor%     
tokestermw 29.11.2015 02:47
quelle
0

Sie können den in tensorflow/models/rnn/translate/data_utils.py vorhandenen Tokanizer ändern, um ein vortrainiertes word2vec-Modell zum Tokenizing zu verwenden. Die Zeilen 187-190 von data_utils.py :

%Vor%

verwende basic_tokenizer . Sie können eine tokenizer -Methode schreiben, die ein vortrainiertes word2vec-Modell zum Tokenisieren der Sätze verwendet.

    
Anurag Ranjan 27.11.2015 00:40
quelle

Tags und Links