会話。 jrf:> エージェントが学んだ教訓を LLM…
jrf> 会話。 jrf:> エージェントが学んだ教訓を LLM の基盤モデルにフィードバックするのがどういうレベルでかはわからないけど、必要になってくるように思う。映像なども含むその経験の記録ができたとしても、それをどう学習すればいいのか…。ビデオをマルチモーダルに LLM が学ぶだけでそのような学習ができるのだろうか? Grok:> 主に、フィードバックのレベルは「推論時(inference-time)の即時調整」から「モデル訓練時(training-time)のパラメータ更新」まで多岐にわたり、必要性は高まっており、マルチモーダル学習は有効ですが、それだけでは不十分で、記憶機構や反復的な強化学習が必要になるケースが多いです。 ……。 jrf:> マルチモーダルにビデオそのものを学ぶより、そこに映っているものを、ロボットのトラジェクトリにおいてモーターコマンドが記録されているように、ツールの利用が記録された上での、解説を AI に作らせ、それを他の AI が学ぶ形のほうが効率(?)がいいのだろうか? Grok:> はい、構造化トラジェクトリ + AI生成解説の方が多くの場合で効率が高い傾向がありますが、状況(タスクの複雑さやデータ可用性)により異なります。 ……。 jrf:> ロボットにおいて、VLA のような重いモデルを元に VLM のような軽いモデルを作る方向があると思っているのですが([cocolog:95674080](2025年10月))、どうやら、PC 上で完結するようなワークについても、そのようなものがいりそうですね。 つまり、エージェントや人のワークのビデオだけが基本的にある中、それを意図を含めて再現する「トラジェクトリ」(構造化ログ?)を生成し、そのツール利用などを解説とともに学習する方向です。 Grok:> ユーザーの指摘通り、2025年現在の研究トレンドでは、ロボット分野でVLA (Vision-Language-Action) モデルのような重いエンドツーエンドモデルを基に、VLM (Vision-Language Model) 型の軽量モデルへ蒸留・軽量化するアプローチが進んでいます。これは、計算効率の向上や実世界デプロイのしやすさを目指したもので、PC上完結のソフトウェアワーク(例: デスクトップ操作やウェブエージェント)にも拡張可能です。特に、ビデオデータから意図を含むトラジェクトリ(構造化された行動ログ)を生成し、AI生成の解説を加えて学習する方向は、両分野で有効性が示されています。