機械学習(AI)のニューラルネットのスパース化は、L1正則化だろ…と思ってたのだ…
jrf> 機械学習(AI)のニューラルネットのスパース化は、L1正則化だろ…と思ってたのだがその認識は古いようで、Grok さんと ChatGPT さんに Magnitude Pruning、L0 Hard Concrete、RigL の名を挙げられ、それについて、Gemini さんに説明してもらったところ、次のような感じのようだ。 Magnitude Pruning は、一定以下のパラメータを 0 にハードに確定する手法。その後のファインチューニングで性能の回復を目指す。 L0 Hard Concrete は、L0正則化がゼロでないパラメータ数を相手にするのに対し、それを微分可能にするため、確率を導入し期待値がゼロでないパラメータを相手にする手法。ガンベル分布を使うのは、それが他の再パラメータ化トリックに比べてうまくいくから。 RigL は、勾配降下法的手法に非勾配降下法的構造変更を組み合わせる技法で、スパース率を強制するゼロ化と、探索的な非ゼロ化を行う手法。