種別	[gsm] 2023-06-21T19:04:49Z
セクション	グローバル共有メモ
日時	2023-06-21T19:04:49Z
元URL	(URLなし)
PAR (Predictor - Actor -…

jrf> PAR (Predictor - Actor - Recollector)。少し考えを改める。

《Google DeepMindから「自己改善型AI」が登場、あらゆる場面でのロボットアームの使い方を勝手に身につけることが可能 - GIGAZINE》  
https://gigazine.net/news/20230621-robocat-self-improving/

↑もそうなのではないかと思うが LLM も、まず、大規模に雑多な知識を学習する。しかるのちファインチューンを行い、現実の環境に持ってくる。

まず雑多な知識を学習したものが、要は PAR では Recollector に相当するのではないか。すると、ファインチューンは Predictor の学習になるのかもしれない。そして本番環境から学ぶのが Actor ？

いや、ちょっと違うか、本番環境からのフィードバックはファインチューンに対してなされねばならないだろう。だから Predictor にフィードバックをする必要がある。では Actor はいらないかというと、別の出力の出し方として、別のファインチューンを要するものとして必要になるのではないか。

環境、予想、行動の組が Predictor と Actor で結局同じものを使えばいいとなったのであるが、ファインチューンということだと、Predictor と Actor が違う感じに学習でき、 両者のどちらが正しいかを、本番環境で試すみたいになるのではないか？

そのときより正しい方は学習されず、間違ってる方は負の学習をする…とすればよいのではないか。あとはファインチューンがめちゃめちゃ高速なら、負の学習もつかってファインチューンをやり直す感じになればいいのではないか。

そんなうまくいくだろうか？ やってみるべきだが、どういう例でどうコードを築いていくべきなのか…。

これは LLM の議論ではなく、Transformer 的議論ということになるかもしれないが。