種別	[gsm] 2023-06-22T04:01:30Z
セクション	グローバル共有メモ
日時	2023-06-22T04:01:30Z
元URL	(URLなし)
(承前) いや、Recollector…

jrf> (承前)

いや、Recollector の学習はそれではダメか。限界は、目的として正しいとは限らないから。目的が複数出力されそのどれかに迷いがある場合、そのどれを選ぶのかに限界のデータは利用できるかもしれないが。「それは目的として達成できない」というのを学習し、Recollector の再学習のときに、そういう達成できないような Path は排除されるようにするべきではないか。

いや、そもそも実際の行動をする前に Recollector をファインチューンするとき、Actor と Predictor を使って、達成不能な目的の生成は除外されるように学習されるべきなのではないか？ 実際行動時に変容すべきなのは、Recollector に除外させる何か。それはまた別のものなのかもしれない。

そもそも「自分に可能な」目的のパスを見つけるのが Recollector の役割で、大目的を小目的に分ける方策をいくつか提案してその方策が実際可能なのかを Actor Predictor で「推論」を行う。それはとても難しいだろう。そうやって推論したにもかかわらず、行動結果を見ると、なお、目的が限界を超えている…そのとき何を学習すればいいのか？提案の破壊的創造が必要ということだろうか、これまでしなかったような提案にチャレンジ推論してみるべき…ランダム探索を増やす…ということだろうか？