種別	[gsm] 2025-10-24T10:00:31Z
セクション	グローバル共有メモ
日時	2025-10-24T10:00:31Z
元URL	(URLなし)
「ニューラルネットを構造的学習で代替する二足歩行実験」を行った。前回はコンセプト…

jrf> 「ニューラルネットを構造的学習で代替する二足歩行実験」を行った。前回はコンセプト的な失敗だったが、今回はまったく歩行ができず、まったくの失敗だった。

《llm_bipedal_walker_structural_learning.ipynb - GitHub Gist》  
https://gist.github.com/JRF-2018/8068e4464db9747c2989c34f6edf3506

……。

経緯。

「ニューラルネットを構造的学習で代替する二重振り子実験」を行ったあと、私は気づいた。制御の中心は「偽装 LLM」にあるのだが、たとえ劣化 PID 制御であっても AI さんが設計した「偽装 LLM」でうまく動くなら、それはその AI さんこそが「偽装 LLM」の実装を通じて「構造的学習」を行ったことになるということを。 

そこで劣化 PID 制御では解けない問題である「二足歩行」の問題を対象にすることで、そのような「構造的学習」がうまくいくのか実際にみてみよう…となった。それが今回の `llm_bipedal_walker_structural_learning.ipynb` になる。

……。

結論。

Gemini さんは次々に偽装 LLM を作って構造的学習を試してくれた。最終的には LLM_API_PSEUDO_CORE6 という強化学習を使ったバージョンも作ってくれた。

しかし、「歩行」はまったく創発しなかった。実行ログを見ると、Step 1000 まで耐えていることもあるので、少しはうまくいっているのかと思ったのだが、そのビデオを見るとたいてい片膝立ちで固定されている。それが報酬ハック的に優れていると判断されるようだ。

実験はまったくの失敗である。

「構造的学習」を人間(私)と AI さんが協調して行う…というそういう試みはできた。でも、ただそれだけである。

今後の課題としては、そもそもの私のアイデアは警告構造だと限らないし、ましては警告を微分要素的に使うことでもない。そのタスク構造こそが創発を導くとしていたのだったが、そういう要素はこの実験にはなかった。そこはまだいろいろ試す余地があると思う。しかし、「歩行」を実現するのに、そのようなタスク構造を生成する「偽装LLM」はもっととんでもなく複雑でなければならないだろう。それを AI さんが作ってくれないかと期待したわけだが、そこまでは現状では無理のようだ。もっと私がそういうプログラムのアイデアを煮詰めるべきなのかもしれない。