PAR 続き。 前は Predictor と Actor…
jrf> PAR 続き。 前は Predictor と Actor の負の学習に勾配を求めるなど小難しいことをやっていたが、そんなことは必要ないのではないか。負の学習率を持った学習自体がいらないように思う。 「行動結果」-「目的」 と 「結果予想」- 「目的」 の絶対値を比較し、前者が大きければ、Actor を負の学習をする。後者が大きければ、Predictor を負の学習をする。…ということであったが、ここで、「結果予想」を Actor に食わせた「対予想行動」と「行動結果」を Actor に食わせた「対結果行動」を求めることができる。このうち後者の組になるべきは、「行動結果」「環境」「対結果行動」となるが、これはリアルな「行動結果」「環境」「行動」より悪いデータだから捨てる。 仮に Actor が負けたとしよう。このとき相対的に Predictor が正しいので、「対予想行動」についても正しい判断ができると考える。そこで Predictor に「対予想行動」「環境」を食わせて得た「対予想行動結果予想」も相対的に正しいと考える。そして、Actor についてのみ「対予想行動」「環境」「対予想行動結果予想」を正しい例として小さめの学習率で学ぶ。 逆に Predictor が負けた場合は少し簡単で、負けた Predictor のみ、「対予想行動」「結果予想」「環境」を正しい例として小さめの学習率で学べばよいのではないか。 …なお、これらは私の以前の実験例でもいえることなので、以前の実験例について、今回考えたアルゴリズムでどうなるか、まず実験してみるべき…となるのだが、TensorFlow とかいろいろアップデートされて、また、私の忘却もあって、ちょっと難しい。時間をかけるべきか否か…。