深層学習の Attention がよくわからない。 『ゼロから作る Deep…
jrf> 深層学習の Attention がよくわからない。 『ゼロから作る Deep Learning (2)』を読み、ググるかぎり、hs の二乗に近いことをするようだが、なぜそれが必要なのかがわからない。 ただ、単純な二乗ではもちろんなく、Softmax を一旦かませるのがミソなのだとは思う。でも、どうして、そうすれば良いのかがよくわからない。 「自己の探求」をする(一旦無意識下に沈める?)ことが、よいこととよくないことの指数的な差を生む…とかあるんだろうか?