Auto-Encoding Variational Bayes_iclr14

这是一篇不可多得的好文章,将无监督的深度生成模型与变分贝叶斯模型结合在一起。它包含两部分,一部分是probabilistic encoder $Q_{\Phi}(Z|X)$,用来近似真实的后验分布$P_{\Theta}(Z|X)$,将输入$X$映射到隐含层编码$Z$;另一部分是生成模型$P_{\Theta}(X|Z)$【decoder】,用隐含层的表示重构输入$X$

Read More

Distilling the Knowledge in a Neural Network

这篇文章讲的是怎么提取训练好的模型的知识。考虑这样的场景,在很多应用场景中为了提升性能往往需要做集成,但是用集成的模型的话首先部署不够灵活,其次计算量会比较大;或者在深度学习里我们一个模型参数动则上百兆,要把这些模型部署到一些嵌入式设备也不太现实。这篇文章就是对复杂模型的输出【soft target】做一些调整,作为监督信息训练小模型。作者称之为”Knowledge Distillation”。

Read More

Variational Inference

1. 背景


在概率模型中,我们常常需要得到隐变量的后验分布或者计算相对于某个分布的期望,比如在EM算法中我们需要得到隐变量$Z$的后验分布,以及计算完全数据的似然分布相对于隐变量的后验分布的期望。然而对于很多现实中的模型,常常因为隐变量的维度过高,难以计算;或者期望太过复杂,没有闭式解。这时候我们就要寻求近似解。近似解大体上分为两种,一种是stochastic approximation,如MCMC;另一种是deterministic approximation,比如我们这篇文章要讲的变分推断。

变分法最早来源于微积分,因为涉及到函数空间,所以叫变分。变分法的核心思想,就是从某个函数空间中找到满足某些条件或约束的函数。我们在统计推断中用到的变分法,实际上就是用形式简单的分布,去近似形式复杂、不易计算的分布,这样再做积分运算就会容易的多。

Read More

Expectation Maximization Algorithm

在机器学习的领域里面,我们常常需要用极大似然估计【或极大化后验】的方法去做参数估计
\begin{equation}
\theta^{MLE}=argmax_{\theta}(\mathcal{L}(\theta))=argmax_{\theta}(ln[p(X|\theta)])
\end{equation}
然而,当模型中含有隐变量,或者说观测数据不完整时,用极大似然估计往往不能得到一个闭式解【closed-form solution】。EM算法就是一种求解这种含有隐变量模型的迭代算法。

Read More

Self-Paced Learning for Latent Variable Models_NIPS10

这一篇是Self-Paced Learning(SPL)的奠基之作。
SPL,固名思义,就是一步步,有自主步伐节奏得学。Motivation应该来自于09年Bengio提出的Curriculum Learning(CL)。CL受到认知科学的启发——人在学东西的时候也没办法一下子接受特别困难的知识,是从简单的开始学起。所以CL是根据某种先验,将按照困难度排好序的样本逐渐喂给模型。SPL与CL最大的不同之处在于这个排样本的先验是嵌入到模型里面的,是动态的,可以优化学习的。
这样子从易到难得学可以看成是一种正则化的手段,有助于加快收敛,并达到一个更好的local minimum.

Read More