種別[gsm] 2026-02-20T06:18:13Z
セクショングローバル共有メモ
日時2026-02-20T06:18:13Z
元URL(URLなし)

Gemini 3.1 Pro がハーネス的 Tools でなく bash…

jrf> Gemini 3.1 Pro がハーネス的 Tools でなく bash を使いたがる点について。私の MemoryBanditWorkflow で何が足りないかと考えた。おそらく AI さんは、制御構文が欲しい課題については、それを AI 自身の作業過程でなく(計算機的確実性のある)プログラム的に実行したいのではないか。Tool を使いつつ、if や while を許すようなものが欲しいのかもしれない。その制御構文の際、AI さん達の判断・介入を許したいということであれば、MemoryBanditWorkflow では workflow の機能が近い。ただそれは順次実行のみで if や while を許してなかった。それを許せばいいのか? むしろそこまでするなら、サブエージェントを作って(コールして)指示ができるようにしたほうが素直なのではないか?

それとも YAML を AI が自分でインタープリットしながら実行するという方向がいいのかな?

《月読いおり:X:2026-02-20》  
https://x.com/tukiyomiiori/status/2024676131291746431
>Gemini 3.1 proについてのポストをざっと眺めていた。

端的によくわかるのは、中の人達のポストは少なく、あっても素晴らしいベンチマークの画像を添付しているのばかりだ。

Coding方面では、元々がGeminiモデルが使われていないということもあって、ポストはとても少ない。
そんななかで気になったのは「bashで作業したがる」というポスト。
これは私も感じた。これは、Gemini 3.1 proが、ハーネスの用意しているToolsを上手く使えないということを言っている。(一昔前のGPTモデルみたいにPythonを使いたがるほど酷いことではないが、Codingの効率も能力も悪くなる)
ちなみに、Gemini 3 Flashは用意されたToolsをきちんと使いこなせるモデルだ。多くの開発者はその能力を今回の3.1 Proに求めたが、果たせなかった。

結局、今回のモデルは「ベンチマーク(svgベンチ含む)で、他社の主要モデルよりも良い成績を出したモデルをリリースした」という以上のものは見いだしにくかった。

素晴らしいベンチマークが示す能力というのは、すでに、知能限界に近く、一般的な利用においてはその価値を見出すのは難しいのだ。
<