そういえば、AI さんが熊剣迷路問題を解くとき、write だけでなく…
jrf> そういえば、AI さんが熊剣迷路問題を解くとき、write だけでなく express_thought も足りないと思ったのだった。 AI さんがツールを使うのは、上すべりで確率的に使っている気がする。そうではなく、「ほぼ強制する」というのが常にあったほうがいい、強制的に試行数を増やしたほうがいい…というとき、バンディットのようなものがあったほうがいいのかもしれない。 すると、バンディットに特定のツールを登録するツールみたいなのを用意して、どういうツールを強制して数を増やして欲しいかを AI さん自身が決められると良いのかもしれない。 もちろん、初期バンディットは与えた上で、強制回数や確率を AI さんに設定可能にするのだ。 こういうのが「下水道的処理」に効くのではないか?