種別[gsm] 2025-11-02T18:03:57Z
セクショングローバル共有メモ
日時2025-11-02T18:03:57Z
元URL(URLなし)

(承前) ……。 実装の核。 SkipPromptDT()…

jrf> (承前)

……。

実装の核。

SkipPromptDT() クラスが実装の核となる部分で、ここが Grok さんのアイデアによる。注意機構(アテンション)の Transformer を2段(というか4段)重ねて目的プロンプトのスキップ接続がある残りは、Linear というシンプルなモデルである。

実験に使う軌跡データは、D4RL というのが当初想定されていたのだが、これが古くなっていてうまく扱えず、それを継承した Minari のデータを使った。Mujoco の Humanoid-v5 の歩行データである。

……。

実験結果。

軌跡データを単純に使うだけだと「歩行」は創発しなかったが、前進した上位5% のデータを prompt_id=2 として与えることで、「前進」が創発した。ビデオに記録されているとおりである。ただ、きれいに歩く姿になってはおらず、とにかく前進するというだけの軌跡になっている。

以前歩行を試みた実験では歩行に完全に失敗していたが、今回はまがりなりにも前進ができたので、うれしかった。

……。

結果を受けた考察。

Transformer を2段というか、4段重ねて、他はそれぞれ Linear が1段で、これほど能力があるのは驚きだった。

アテンションが、多層目的に対応しているというのは、おそらく今回の実験では、全体の歩行という目的に対し、右足や左足といったより小さな単位での目的と同時にあって、それが適切に選択された結果である…ということだと私は解釈する。

基本的に、これは、強化学習の実験ではなく、おそらく特定のモデルで強化学習で作られた軌跡データを別のモデルで「コピー」する実験だった。ロボットのモデルの実装というのは、こういうものなのだというのは、私にとっては大事な知見だった。

ただ、これは Grok さんの作ったモデルの成果なのかな?…という疑いはある。というのは、DecisionTransformer というもの自体がこういうことが可能なモデルとして知られていて、要は Transformer がこういう能力のあるものということでしかないのではないか…とも思えるからだ。

それはそれとして、ニューラルネットがタスク分担でできるという解釈を以前得た(参: [[cocolog:95690194](2025年10月))。今回は、実験でアテンションが多層目的と解釈できるということがわかった。それらを合わせて、ニューラルネットやアテンションという今回必要となった部分について、それらを使わないで「構造的学習」ができるかもしれない…という方向は示せたかな…と思う。それは AGI を目指すうえで必要になるかもしれない。