種別[gsm] 2025-08-27T11:14:39Z
セクショングローバル共有メモ
日時2025-08-27T11:14:39Z
元URL(URLなし)

従来の強化学習が状態と報酬を分けて考えるのに対し、テリック状態…目標に合わせて状…

jrf> 従来の強化学習が状態と報酬を分けて考えるのに対し、テリック状態…目標に合わせて状態認識が変わることを考慮するとよいらしい。例えば、空腹なら食べ物の看板が目に飛び込んでくるが満腹なら本屋や雑貨店に目が向く…といったように。これに私は以前の考えを思い出す。AI が RAG などで文章の要約をするとき、単純に独立に要約するのではなく、その大目的にそって要約がなされるべきだというもの。これが目標に合わせた状態認識に相当すると思う。

上の以前の私の考えは↓。

[cocolog:95524118](2025年7月)
>ポケモンとかの長大(?)なゲームになると、「要約」では不十分で「連想記憶」が重要になるのではないか。連想記憶というのもなかなか難しい。行動やプロンプトをじゃんじゃん記憶して、それを再生するだけではおそらく不十分で、その付近(?)の文脈も記憶されてる必要があり、場面・場面ごとの要約が「エピソード記憶」としてある感じが必要なのかもしれない。そうやって予め圧縮されたものが連想で出てくる感じになるのだろうか。<

[cocolog:95531341](2025年7月)
>連想のために要約を随時していくシステムを考えるのであるが、長大な文をすべてプロンプトに含めていくのは限界があるので、プロンプトに含めるときに圧縮が必要なら、その文脈での要約をして圧縮していくようなことをする必要があるのだろう。とても高コストになるが。
<

《AI時代の羅針盤 (compass for the AI era):X:2025-08-27 》  
https://x.com/compassinai/status/1960637389145330097
>【あなたの世界の見え方は「目標」が決めている?🧠】

「道を渡る時」と「タクシーを探す時」。同じ交差点でも、意識する情報は全く違いますよね。

プリンストン大学などの研究は、この「目標に応じて世界認識が変わる」仕組みをAIで再現する理論を提唱しています。

私たちの脳も、客観的な世界をそのまま見ているのではなく、その時々の目標に合わせて情報を取捨選択し、主観的な「世界地図」を描き出しているのかもしれません。

私たちの認知の根幹に迫るこの理論、その驚くべき中身とは?

(…)

#脳科学 #認知科学 #AI #強化学習 #アフォーダンス

強化学習の常識を覆すテリック状態とは?目標と認知が融合する新AI理論(2508.15013)【論文解説シリーズ】Goals and the Structure of Experience. Nadav Amir, Stas Tiomkin, Angela Langdon.  https://youtu.be/H8BhYuDP8Bk via @compassinai
<