2016-09-01

Domain Adaptation from Multiple Sources via Auxiliary Classifiers_ICML09

这篇文章做的是从多个源领域到单个目标领域的迁移，思想来源于Adaptive SVM[1]，就是使源领域模型参数“适应”到目标领域去。

假设现在有s个源领域$D^s=(x_i^s, y_i^s)|_{i=1}^{n_s}，s=1,2,…,P$，目标领域有标记数据$D_l^T=(x_i^T,y_i^T)|_{i=1}^{n_l}$和未标记数据$D_u^T=x_i^T|_{i=n_l+1}^{n_l+n_u}$，我们希望源领域的分类器$f^s(x)$和要学的目标领域分类器$f^T(x)$之间满足这样的关系：
\begin{equation}
f^T(x)=\sum_s\gamma_sf^s(x)+\Delta f(x)\\
s.t. \quad \sum_s\gamma_s=1
\end{equation}
扰动函数【perturbation function】$\Delta f(x)$用目标领域的标记数据$D_l^T$来学，根据[1]，
\begin{equation}
\Delta f(x)=\sum_{i=1}^{n_l}\alpha_i^Ty_i^Tk(x_i^T,x)
\end{equation}
类似地，
\begin{equation}
f^s(x)=\sum_s\gamma_s\sum_{i=1}^{n_s}\gamma_i^sy_i^sk(x_i^s,x)
\end{equation}
两者用相同的kernel
这样子，目标领域的分类器就变成了一些kernel的加权和
然而现在我们还没有考虑到怎么利用未标记的数据，根据manifold约束，在流形上相邻的特征它们的decision value也应该相近。因此作者认为，在domain adaption问题中，对于这些未标记的数据，目标分类器的decision value和与它比较相关的源领域分类器的decision value值也不应该差太远，所以作者提出了这样的一个data-dependent regularizer
\begin{equation}
\Omega_D(\textbf{f}_u^T)=\frac{1}{2}\sum_{i=n_l+1}^{n_T}\sum_s\gamma_s(f_i^T-f_i^s)^2=\frac{1}{2}\sum_s\gamma_s|\textbf{f}_u^T-\textbf{f}_u^s|^2
\end{equation}
$\gamma_s$表示目标领域与某个源领域之间的相关程度
$\textbf{f}_u^T=[f_{n_{l+1}}^T,…,f_{n_T}^T]’,\ \textbf{f}_u^s=[f_{n_{l+1}}^s, …, f_{n_T}^s]’$
所以最后的目标函数是
\begin{equation}
min_{f^T}\Omega(f^T)+\frac{1}{2}\sum_{i=1}^{n_l}(f_i^T-y_i^T)^2+\Omega_D(\textbf{f}_u^T)
\end{equation}
其中，$\Omega(f^T)$是目标分类器的参数正则化项
最后，作者还提出因为SVR【Support Vector Regression】通常能得到比较稀疏的解，所以还可以再加一个约束项
作者最后得出来的对偶形式也没有涉及太多的kernel运算，所以作者认为自己的算法比较scale

实验是在TRECVID 2005数据集上进行的

[1] Crossdomain video concept detection using adaptive SVMs