種別	[gsm] 2025-09-11T08:58:04Z
セクション	グローバル共有メモ
日時	2025-09-11T08:58:04Z
元URL	(URLなし)
「LLM…

jrf> 「LLM のメモリ機能とバンディット機能とワークフロー機能の試験実装」を行った。ワークフロー機能を実装してそれが一度動いたところで実験終了。まぁ、ただのコンセプト実装。

《experimental_bandit_workflow_0.0.2.ipynb》  
https://gist.github.com/JRF-2018/8b92fdb2d64bf017a533549d6ec4a22a

最近 LLM についてコンテクストエンジニアリングという言葉をよく聞く。実は Web でなく API から使う LLM は「ステートレス」で、会話などの記憶はデフォルトではしてくれない。会話を続けようと思ったら、メッセージをユーザー側で記録しておき、それをいちいち API に与えないといけないのだ。古い記憶を呼び戻したりするには、単純に記録するだけでなく検索基盤も必要となる。そのような基盤をひっくるめてコンテクストと一般的に呼んでおり、それをどううまく構築するかが問題となっている。

特にコンテクストのうち、記憶の基盤は単に「メモリ」と呼ばれている。PC のメモリなどとごっちゃになって、わかりにくくもあるのだが、そう呼ばれているのだからしかたがない。

メモリ機能をなかなか使ってくれないのに業を煮やして、「バンディットに特定のツールを登録するツールみたいなのを用意して、どういうツールを強制して数を増やして欲しいかを AI さん自身が決められる」というバンディット機能を作って、メモリを使うのを強制してみたのが前回。今回はそれを拡張して、ワークフローも実行させられるようにしてみた。

そのアイデアの軌跡は↓にある。

[cocolog:95619779](2025年9月)
《「LLM のメモリ機能を強制的に使うバンディットマシンの試験実装」と「LLM のメモリ機能とバンディット機能の試験実装」を行った。後者がメインの成果物で、メモリ機能の使用増加をどう強制するかから拡張したフレームワーク。 - JRF のひとこと》 http://jrf.cocolog-nifty.com/statuses/2025/09/post-8225e2.html

ところで、今回のような手法はすでにどこかにあるとは思う。ワークフローというのは手垢のついた考え方だ。新規性がある話ではあまりないのかもしれないが、今回の試みが、何かの参考になれば幸いである。

……。

前回からの変更点。

imagine_keywords を有効に機能させるためには、書いたメモリからランダムに選んで keyword 文を append することを検討させるのを、バンディットで20ターンに1回ぐらい強制するのがいいのだと思う。それを強制するのに結局のところワークフローみたいなものが必要になるとまず気づいた。

そして考えてるうちに前回までの bandit_list が workflow:main みたいなものなのか！…と気づいた。

その方向で前回の実装をかなり活かしてワークフロー機能を実装できた。

その他に大きなところで、前回までに PlayGame クラスが大きくなりすぎたので、それを分けて MemoryBanditWorkflow というクラスを作り、PlayGame をそこから継承するようにした。将来的には MemoryBanditWorkflow を独立したライブラリと出来ればいいのかもしれないが、そこまでするつもりは今のところない。

……。

結論。

今回はコストがかかるのを嫌ってはじめからゴールさせるつもりはなく、ワークフローを一度使ったところで実験終了させた。かなりいい調子なのに止めてしまって Gemini 2.5 Pro さんには申し訳ない。

ワークフロー自体はちゃんと動いている。いちおう workflow_new もツールとして用意したが、これは煩雑になりすぎるので AI さんには使わせないほうが吉なのかもしれない。workflow_new の実験はできてないが、まぁ、動くことは動くでしょう。

なお、再現性がないため、最初からの再実行はやっていないのはご容赦願いたい。