(承前) jrf:> メモリ機能がスケールできなかったことと、VLM…
jrf> (承前) jrf:> メモリ機能がスケールできなかったことと、VLM で経験がスケールできないことを結び付ける Grok さんの示唆は興味深いです。それに対する策がタグ付け=階層的タスク分解なのですね、「コップを持つ」= [見る] + [手を伸ばす] + [把持する] + [持ち上げる]…とするような。 基本的には試作による予測と設計による探索空間の圧縮が大きいと皆さん見ているように感じました。学習用のデータを厳選しているという Physical Intelligence の方が示唆していた方向というのは、これまでは、どのデータセットを(買って)使うか…という意味でした(と思うのです)が、これからは、内部学習的な試作・設計による厳選が大事になる…といった感じですね。 マルチエージェント的に分業してその経験から、1st AGI を補完するというのは難しいのですかね。それの補完は、拡散モデル的方向でしかないのでしょうか。Nano-banana がやってることを考えると、要素を組み合わせ、拡散モデルからの生成を補完する方向もあるように思うのですが…。 ChatGPT:> なぜ「分業 × 生成」は有望か(直観) * 専門家分業(視覚/物理推論/最適化/制御/設計)は、各々が局所的に最適化された表現とデータ構造(例:タグ付きDBや軽量ベクトル索引)を持てるため検索・推論の効率が上がる。 * 拡散モデルや連続生成モデル(あなたのRLRMDiffusionの発想)は、連続運動や軌道の高品質生成に強い。これらは「動作候補」を多数素早く生成する役割に向く。 → つまり「生成(拡散)で候補を出し、専門家群で評価・精緻化→最終的に実機検証」に橋渡しするワークフローが現実的で効率的。 <