斎藤康毅『ゼロから作るDeep Learning 5 -…
jrf> 斎藤康毅『ゼロから作るDeep Learning 5 - 生成モデル編』を読んだ。画像生成 AI の作り方が書いてある。VAE から拡散モデルを導くのが一つの流れで書かれているのがハッとさせられた。オススメ。 岡野原大輔『拡散モデル』を読んだときは([cocolog:94256676])、数式が難しく歯が立たなかったが、これはサンプルコードも充実していて、かなりわかった(気にさせてくれた)。正規分布から説きはじめており、がんばれば高校生でも読めるのではないかと思う。 それでも私はレベルが低いため詰まったところが何箇所もあった。 一例として、p.162 ぐらいで、VAE の ELBO に KL ダイバージェンスが含まれてるのはすでに ELBO を導く過程で KL ダイバージェンスを除いているので間違いじゃないかと思ったが、ちゃんと読み直すと、KL ダイバージェンスがまた必要になってるのがわかった。 あとその部分のすぐあとで、正規乱数の ε にバックプロパゲーションがいらないというのには、そうなのかと驚いた。そうだったかもしれないが、知らなかったか忘れていた。 忘れていたということに関しては、p.219 の例で、v.view(N, C, 1, 1) にして x + v しているのがわからなかった。Gemini さんに聞いて、それが「ブロードキャスト」の機能であることをやっと思い出した。でも、なぜブロードキャストで OK なのかはわかってないが。 p.239 の pθ(x0|y) の数式。p(xT) が p(xT|y) でないのも間違いじゃないかと一瞬思ったのだが、これは、p(xT) が y に関係ない乱数になるからそれでいいってことだよ…ね? あと、p.289 の step8/hvae.py の reparameterize の eps は github を見ると式の書き忘れのはず。私が見つけた誤植はその程度で、まぁ、私はその程度の目しか持ってないということで…。 この本自体はいい本だが、この本が「わかった」からと言って、概念そのものが数学的に難しく、この後、何か新しいアイデアにつなげられないのが、私の情けないところ。