種別[gsm] 2020-09-19T22:10:11Z
セクショングローバル共有メモ
日時2020-09-19T22:10:11Z
元URL(URLなし)

深層学習の Attention がよくわからない。 『ゼロから作る Deep…

jrf> 深層学習の Attention がよくわからない。

『ゼロから作る Deep Learning (2)』を読み、ググるかぎり、hs の二乗に近いことをするようだが、なぜそれが必要なのかがわからない。

ただ、単純な二乗ではもちろんなく、Softmax を一旦かませるのがミソなのだとは思う。でも、どうして、そうすれば良いのかがよくわからない。

「自己の探求」をする(一旦無意識下に沈める?)ことが、よいこととよくないことの指数的な差を生む…とかあるんだろうか?