種別[gsm] 2025-08-25T11:31:44Z
セクショングローバル共有メモ
日時2025-08-25T11:31:44Z
元URL(URLなし)

そういえば、AI さんが熊剣迷路問題を解くとき、write だけでなく…

jrf> そういえば、AI さんが熊剣迷路問題を解くとき、write だけでなく express_thought も足りないと思ったのだった。

AI さんがツールを使うのは、上すべりで確率的に使っている気がする。そうではなく、「ほぼ強制する」というのが常にあったほうがいい、強制的に試行数を増やしたほうがいい…というとき、バンディットのようなものがあったほうがいいのかもしれない。

すると、バンディットに特定のツールを登録するツールみたいなのを用意して、どういうツールを強制して数を増やして欲しいかを AI さん自身が決められると良いのかもしれない。

もちろん、初期バンディットは与えた上で、強制回数や確率を AI さんに設定可能にするのだ。

こういうのが「下水道的処理」に効くのではないか?