種別	[gsm] 2025-07-15T02:46:35Z
セクション	グローバル共有メモ
日時	2025-07-15T02:46:35Z
元URL	(URLなし)

言語とビデオを解する RLRMD…

jrf> 言語とビデオを解する RLRMD が低コストでできるとすれば、それはマシンの違いを超えて転移学習ができるからなのだろう。

方策は、「型」がある程度定まった(生成した)ビデオで渡すべきなのかもしれない。ただ、ボルトがしっかりしまってないといけない…といったセンサーで探知すべきことなどは、文章で付随して指示を出さねばならないだろう。

すると RLRMD は言語とビデオを解するようでなければならない。生成物は f に限られるから、LLM ほど強力ではないとはいえ、しかし、それはマシンごとに違うとなるだろう。この高コスト構造を打破する可能性がある技術と言えば、転移学習に期待がかかる。

……。

前もどこかで書いたが、f を生成するときは、以前の f' となめらかに接続しなければならない。おそらく RLRMD(V+x, f') = (f, c) で f の他にどうなめらかに接続するかの戦略 c も出力する必要があるのだろう。