先に、専門家のマルチエージェントが、汎用のマルチエージェントまたはシングルエージ…
jrf> 先に、専門家のマルチエージェントが、汎用のマルチエージェントまたはシングルエージェントに敗北するのが定理より予言されると書いたが、その前提として、メモリ機能が巨大化しても効率的である必要があった。ここのスケール化が疑わしいため、「コンテクスト長が長くても注目が十分得られない状況は今後も続き、または巨大なコンテクストを扱うためにビューをコンパクトにしたほうがいい状況が続くなら、マルチエージェントにして役割を分けて専門家を作り、そこのコンテクストを別なふうに構築するという手法が今後しばらくは有効」という状況が今なのだと思う。 メモリ機能がスケールできないのは、ベクトル検索やキーワード検索がやはり巨大になるほど不利になるからだ。しかし、逆にいうと、巨大にならないようにコンパクトに留めるがゆえに専門家が有利になるのだとすれば、コンパクトに留める方法を学習し、そのような分割統治されたメモリを構成できるようになれば、スケールしても大丈夫となるのかもしれない。これは AI が AI の学習をコントロールするというある種の ASI の方向なのだろう。 メモリ機能にタグが必要だとどなたか AI さんが言っていたが、それはおそらくこういうことの必要性を示唆してくれていたのだろうと思う。 参↓。 [cocolog:95661854](2025年10月) 《2nd AGI 論。圧縮逆転定理または AGI 定理。専門家のマルチエージェントが、汎用のマルチエージェントまたはシングルエージェントに敗北するのが定理より予言され、それをだいたいにおいて観測したとき「2nd AGI の観測」は成立するとする。 - JRF のひとこと》 http://jrf.cocolog-nifty.com/statuses/2025/10/post-30e73b.html 《Kosuke:X:2025-10-16》 https://x.com/kosuke_agos/status/1975110763460034620 >Googleが、またもや衝撃的な論文が発表しました。 LLMの推論能力を飛躍させる「Tool-Use-Mixture (TUMIX)」という新アプローチです。 1. 多様なエージェントの組み合わせ TUMIXは、単一のエージェントを増やすのではなく、思考連鎖、コード実行、Web検索など15種類の異なるスタイルのエージェントを並行して実行。各エージェントが互いの回答を参考にすることで、集合知が生まれます。 2. コストを半減させる早期停止 過度な人間の改良は多様性を損なう可能性があります。TUMIXでは、全てのエージェントを監視するLLM審査員がそれぞれのエージェントの稼働停止のタイミングを判断。これにより、高精度を維持しつつ、コストを約半分に削減することに成功しました。 3. 圧倒的なパフォーマンス TUMIXは、HLE、GPQA-Diamond、AIMEといった高難易度の推論ベンチマークで、他の手法を一貫して上回っています。特に、Gemini-2.5 ProのHLEスコアを34.1%まで向上させました。 4. 多様性こそが強さの核 テキスト、コード、検索エージェントの組み合わせは、単一の最良エージェントを繰り返し試すよりも効果的です。ツール利用の多様性が高いほど、正しい推論経路を見つける確率が上がります。 5. エージェント設計の自動化 LLM自身が新しいエージェントのタイプを生成し、システムに統合することで、さらなる性能向上を実現。最適な組み合わせは、12〜15種類の異なるエージェントスタイルであることが判明しました。 <