A Convex Formulation for Learning Task Relationships in Multi-Task Learning 阅读笔记

引言

本文提出了一种称为多任务关系学习(MRTL)的方法,将任务之间的关系以非参数方式建模为任务协方差矩阵,在正则化框架下得到一个允许同时学习任务间关系和参数的凸目标函数。
MRTL可以看作是将单任务学习的正则化框架推广到多任务的情景。为了提高效率,采用一种将每个子问题作为凸问题的交替优化方法。
文章研究了对称环境下的多任务学习问题,并将其推广至非对称环境。此外,某些现有的多任务学习方法可以看作是MTRL的特殊情况。与现有的方法相比,MTRL可以用非参数的方式学习各种类型的任务关系。

多任务关系学习

概率框架

\(y_j^i\)满足正态分布:

\[y_j^i|x_j^i,w_i,b_i,\epsilon_i \sim N(w^\top_i x^i_j+b_i, \epsilon^{2}_i) \]

经过推导,为获得\(W\)的最大后验并得到\(b\)\(\Omega\)的最大似然估计,需要优化的目标函数为:

\[arg\,\min_{W,b,\Omega} \sum_{i=1}^{m}\frac{1}{n_i}\sum_{j=1}^{n_i}(y_j^i-w_i^Tx_j^i-b_i)^2 + \frac{\lambda_1}{2}tr(WW^T)+\frac{\lambda_2}{2}tr(W\Omega^{-1} W^T) \]

这是一个对计算能力要求很高的半正定编程问题,作者提出了一个算法来解决它。

优化过程

将上式的最后一项改写为:

\[tr(W\Omega^{-1} W^T)=\sum_{t} W(t,:)\Omega^{-1} W(t,:)^T \]

经过推理原式对于\(W\)\(b\)\(\Omega\)都是凸的,但很难将这些参数同时优化。在此作者提出了一种交替优化的方法:
首先将\(\Omega\)固定并优化\(W\)\(b\),然后将\(W\)\(b\)固定并优化\(\Omega\);接下来重复这两个过程,直至收敛为止。
固定\(\Omega\)时,估计\(W\)\(b\)是一个无约束凸优化问题,可以将目标函数的拉格朗日函数表示为:

\[G=\sum_{i=1}^{m}\frac{1}{n_i}\sum_{j=1}^{n_i}(\epsilon_j^i)^2 + \frac{\lambda_1}{2}tr(WW^T)+\frac{\lambda_2}{2}tr(W\Omega^{-1} W^T)\\ +\sum_{i=1}^{m}\sum_{j=1}^{n_i} \alpha_j^i [y_j^i-(w_i^Tx_j^i+b_i)-\epsilon_j^i] \]

分别求梯度:
梯度
有m个约束,每个约束对应一个任务,在这里使用SMO算法与最小二乘法支持向量机。
而在固定\(W\)\(b\)时,\(\Omega\)有一个解析解:

\[{\Omega}=\frac{(W^TW)^\frac{1}{2}}{tr((W^TW)^\frac{1}{2})} \]

非对称多任务学习算法

这是一个半正定规划(SDP)问题,同样可用交替优化的方法来求解。

\[\tilde{\Omega}= ( \begin{matrix} (1-\sigma)\Omega & \omega_{m+1}\\ \omega_{m+1}^T & \sigma \end{matrix} ) \]

这里认为\(\tilde{\Omega}\)是正定矩阵,那么可以推得 $$\omega_{m+1}^T \Omega^{-1} \omega_{m+1} \leq \sigma - \sigma^2$$。
当优化\(w\)\(b\)时,和单任务的学习比较类似;而优化\(\omega_{m+1}\)\(\Omega\)时,目标函数为:

\[\min_{\omega_{m+1},\sigma,\tilde{\Omega}}tr(W_{m+1}\tilde{\Omega} W_{m+1}^T) \]

施加一个约束条件\(W_{m+1}\tilde{\Omega} W_{m+1}^T \preceq (1/t)I_d\),则有\(\tilde{\Omega}-tW_{m+1}^TW_{m+1} \succeq 0\),目标是$$\min_{\omega_{m+1},\sigma,\tilde{\Omega},t}-t$$。

posted @ 2020-10-05 15:38  ArkBagpipe  阅读(421)  评论(0)    收藏  举报