「「多層目的=アテンション」を確かめる二足歩行の実験…
jrf> 「「多層目的=アテンション」を確かめる二足歩行の実験 その8」の反省。L1正則化でスパース化をこころざすなら、Dropout はなしか、かなり少なく設定する必要があったかもしれない。また「元のモデル」もL1正則化しておいたほうがよかったかもしれない。ただ、L1正則化するとうまくいくといっても学習時間がかかるんだよな。うまくいくかどうかもわからないし。
jrf> 「「多層目的=アテンション」を確かめる二足歩行の実験 その8」の反省。L1正則化でスパース化をこころざすなら、Dropout はなしか、かなり少なく設定する必要があったかもしれない。また「元のモデル」もL1正則化しておいたほうがよかったかもしれない。ただ、L1正則化するとうまくいくといっても学習時間がかかるんだよな。うまくいくかどうかもわからないし。