Ich implementiere Sprachmodell-Training auf Penn Treebank.
Ich addiere Verlust für jeden Zeitschritt und berechne dann Perplexität.
Das gibt mir eine unsensible hohe Ratlosigkeit von Hunderten von Milliarden, auch nach einer gewissen Zeit...
29.12.2017, 08:02