種別[gsm] 2025-11-02T18:03:28Z
セクショングローバル共有メモ
日時2025-11-02T18:03:28Z
元URL(URLなし)

「「多層目的=アテンション」を確かめる二足歩行の実験」を行った。今回は「歩行」と…

jrf> 「「多層目的=アテンション」を確かめる二足歩行の実験」を行った。今回は「歩行」としてはギコチナイが、前進を続けることができてうれしかった。今回はビデオがあってうまく Gist にできないので Colab でのみ公開。

《humanoid_nested_attention_dt.ipynb - Colab》  
https://colab.research.google.com/drive/1xecuAY7anGjCRuaWyr--RBl9KdXMp4lz

……。

アイデア。

以前考えた多層的な最適化(参: 拙著『宗教学雑考集』《目的の多層性》)とアテンションは何かつながりがあるように思う。どういう集団(層)に対して最適化するのか…と目的へのアテンションが似ているように思う。

アテンションを逆に多層最適化に直すことで、ニューラルネットから、プログラム的システム的な方向に設計しなおす「構造的学習」(参: [cocolog:95666408](2025年10月))が可能になる…なんてことはありうるだろうか?…などと考えていた。

ロボットに学習させるときは、ある部分のバイアスをいかに固定するかが大事なのかもしれない。そういうバイアスを見つけるのが、今、E2E や強化学習で作ろうとしている部分なのかもしれない。それさえできれば、「ファインチューニング」程度で、いろいろな動作が可能になるのかもしれない。

そういうバイアスが多次元的にあるからこそ、多層的目的は意味を持ってくるのだろうか…?

バイアスが遺伝情報などからパッと求まるならいい。動物などはそうなのだろう。多層目的もバイアスからパッと求まらないだろうか。今ある問題についてバイアスがあれば多層目的へのアテンションが決まる…そんな感じ…。

バイアスと問題が与えられれば、多層目的の・報酬のアテンション重みが出力されるように学習できないか?

多層目的は何(主体)が何を目的とするかが問題となる。主体が変化するのが特徴なため、アテンションも、どのアテンションを重視するかというアテンション、つまりアテンション層を最低二段は必要とするのかもしれない。 

バイアスと問題の与え方について。バイアスはモデルそのものとすれば、モデルを入力にするのは大きすぎて扱えなくなる。バイアスの実現を入力とすべきかもしれない。バイアスの実現とは行動が物理的に作用した結果であるとすれば、観察の入力がバイアスの入力を兼ねられるのかもしれない。

一方、問題については、それも一つの目的だとすると、アテンションが扱うべき目的の一つということになるのかもしれない。言語的変形があるなら、アテンション層に問題がどういう形でか接続されるのだろう。

行動決定の後、バイアス=観察の入力があり、それが報酬のアテンションを決定し、それが方策となり行動決定となる。これが LLM 的なつながりであろう。ただし、「問題」はアテンションの決定に接続される。LLM 的な発想だと、「問題」はプロンプトの最初に与えられるべきものだが、それがアテンション層にもスキップ接続がある感じだろうか。…? 

…とここまで Grok さんに「壁打ち」したところ、Grok さんは具体的な実装を示してくれた。具体例として選ばれたのは二足歩行問題である。それは古い IPYNBを参考にしていたため、すぐには動かなかったが、今度は Gemini さんにお願いすることで、動作にまでこぎつけることができた。それが今回の実装である。