温故知新 | VAE 模型推导与总结

程序员大白

共 1519字，需浏览 4分钟

·

2022-03-01 21:49

点击上方“程序员大白”，选择“星标”公众号

重磅干货，第一时间送达

来源：知乎—胖西西文仅分享，侵删

https://zhuanlan.zhihu.com/p/434394556

此总结首次完成于2021年4月25日，今日再次遇到vae模型推导问题，翻出一看，豁然开朗，故想分享于知乎社区，与大家共同分享，如有错误或不同见解请多多批评指正与交流。

摘要

VAE 模型 loss 的详细推导过程，变分自编码器的理解。

01

模型与说明

1.1 VAE模型基本网络结构

变分自编码器 (VAE) 由编码器和解码器两个部分组成。特征 x 输入编码器 $p_{\theta}(z|x)$ 生成编码特征 z，z 输入解码器 $p_{\theta}(z|x)$ 生成重构的 ; 通过生成角度来理解，该网络又可以分成推理网络和生成网络两部分。

1.2 $p_{\theta}(z|x)$ 与 $p(z)$ 的理解

$p_{\theta}(z|x)$ 是编码器/推理网络， $p_{\theta}(z|x)$ 该分布是真实的、复杂的，也是我们想去逼近的；而 $q(z)$ 是我们自己定的，用来逼近或者约束 $p_{\theta}(z|x)$ 的一个分布， $q(z)$ 是简单的，可主观决定的。

1.3 说明

变分自编码器所谓变分，指的是该模型存在泛函 $q(z)$ ,解决该泛函问题需要采用变分法，也就是寻找一个函数/参数 $q(z)$ 。

02

公式推导

首先需要明确VAE模型的目的就是为了使得似然函数 $log(p(x))$ 最大。

2.1 使得似然函数 $log(p(x))$ 最大,为什么转化成使得 $ELBO$ (变分下界)最大？

由贝叶斯定理：

公式1变形有:

公式2左右对 $q(z)$ 取 $ln$ 有：

变形有,其中 $q(z)$ 为任一分布

公式3两端对 $q(z)$ 求期望:

将公式4期望展开有:

由kl散度定义, $KL(P||Q) = \int{P\ln{\frac{P}{Q}}}$ 有:

令 $ELBO=E_{q(z)}[\ln{\frac{p(x,z)}{q(z)}}]$ ，并且由定义知道 $KL(q(z||q(z|x))\geq 0$ 有:

当且仅当 $q(z) = q(z|x)$ 时, $lnp(x) = ELBO$ ,否则， $\ln{p(x)}\geq ELBO$ ,将 $\ln{p(x)}$ 视为一个以 $q(z)$ 为参数的泛函有：

改变 $q(z)$ 并不能影响 $\ln(p(x))$ 的大小，而且 $\ln(p(x))$ 大于 $ELBO$ ，那么欲似然 $\ln(p(x))$ 更大，可从 $ELBO$ 下手，当 $ELBO$ 越大的情况下，似然 $\ln(p(x))$ 就会更大

所以可以来最大化 $ELBO$ 使得似然最大，使用神经网络的时候要注意，对 $-ELBO$ 进行优化，优化目标使得 $-ELBO$ 最小即可

2.2 对 $ELBO$ 再推导

因为对于 $q(z)$ ， $x$ 与 $z$ 独立，所以为了与encoder $q_(z|x)$ 接近，故将 $q(z)$ ,修改为 $q_(z|x)$ ,有：

设重构的x服从于高斯分布( $\mu,\sigma^{2}$ ),则有

设 $q(z|x)$ 服从于多元高斯分布 $(\mu,\sigma^2)$ ,另 $p(z)$ （认为设定的）服从于 $(0,1)$ 的分布，有(15)式：

$(\mu,\sigma^2)$ 二阶矩为 $\mu^2+\sigma^2$ ，所以有：

根据重构项和KL散度项的约束，我们可以得出（19）式

!!!!注意， $ELBO$ 我们想让他越大越好，但在神经网络优化中，我们对 $ELBO$ 先取负，转化成- $ELBO$ 再优化，此时，- $ELBO$ 越小越好

03

总结

根据以往经验，容易犯错误的地方有，使用神经网络时候，一定要对ELBO先取负再优化！

很久之前发布的文件与代码

https://gitee.com/sulei_ustb/vae-model

推荐阅读

13个你一定要知道的PyTorch特性

解读：为什么要做特征归一化/标准化？

一文搞懂 PyTorch 内部机制

张一鸣：每个逆袭的年轻人，都具备的底层能力

关于程序员大白

程序员大白是一群哈工大，东北大学，西湖大学和上海交通大学的硕士博士运营维护的号，大家乐于分享高质量文章，喜欢总结知识，欢迎关注[程序员大白]，大家一起学习进步！

浏览 112

点赞

收藏

分享

举报

评论

图片

表情

温故知新 | VAE 模型推导与总结

机器学习与生成对抗网络

一文总结集成学习与模型融合

机器学习实验室

生成模型那些事:从 VAE 到扩散模型

机器学习与数学

DevOps 温故知新

【引】伴随着微服务架构以及云技术的广泛使用，DevOps相应地引起了人们的关注，尤其在互联网企业展开了大量的探索和实践。去年赋闲在家的时候，有幸精读了三本书，分别是《持续架构实践——敏捷和DevOps时代下的软件架构》，《精益DevOps——快速安全的IT交付宝典》和《基础设施即代码——模型驱动的

Actor模型与Akka Actor体系基础总结

程序源代码

XGboost模型知识点总结

七月在线实验室

PowerBI PVM 模型 - 数学推导与 DAX 实现的完美展示

PowerBI战友联盟