種別	[gsm] 2023-06-22T15:22:34Z
セクション	グローバル共有メモ
日時	2023-06-22T15:22:34Z
元URL	(URLなし)

PAR 続き。 Actor…

jrf> PAR 続き。

Actor が負けたとき、対予想行動に関してやるよりも、目的の周辺(複数)について、Actor で行動提案を出し、その結果を Predictor で予想して、その複数のデータを Actor が学ぶ…ほうがいいかもしれない。

Predictor が負けたときも、目的の周辺(複数)について、Actor で行動提案し、その複数のデータを Predictor が学ぶ…ほうがいいのかもしれない。

周辺については、「行動結果」-「目的」 と 「結果予想」- 「目的」 それぞれの絶対値のうち大きい方を半径とすればいい感じだろうか？ いや、前者は行動限界を超えた場合に大きすぎることがありうるので、後者のみかな？ または、大きい方の半径にして(epochで変わる)上限を設けるか…。

ただ、複数化を単純にやれば過学習が起きやすいかもしれない…。