PAR 続き。…
jrf> PAR 続き。 大規模モデルをファインチューンするという見立てでいくと、「環境」には「自分の状態・自分は何であるか」の情報も含まれるし、「環境」は固定した長さではなく、何らかの記述で、記述の一部が欠落したものが学習されてることもある…となるのだろう。 そして「結果予想」なども、記述となり、固定長ではなくなるのかもしれない。「行動」はどうか、これは固定長でもよいかもしれないが、記述かもしれない。
jrf> PAR 続き。 大規模モデルをファインチューンするという見立てでいくと、「環境」には「自分の状態・自分は何であるか」の情報も含まれるし、「環境」は固定した長さではなく、何らかの記述で、記述の一部が欠落したものが学習されてることもある…となるのだろう。 そして「結果予想」なども、記述となり、固定長ではなくなるのかもしれない。「行動」はどうか、これは固定長でもよいかもしれないが、記述かもしれない。