Cluster Multi-Task Learning a Convex Formulation 阅读笔记

摘要

在多任务学习中,希望通过任务间适当的信息共享,使每个任务都能从其他任务中获益。在本文中,假设各个任务事先被聚类到事先未知的组中,并且组内的任务具有相似的权向量。作者设计了一个新的谱范数来编码这个先验假设,在不考虑任务分组的先验知识的情况下,得到了一个新的多任务学习凸优化公式。即,假设先验知识已知,如何设计正则化方法来执行它?

任务聚类中的多任务学习

考虑$m$个相关的任务,训练数据用$(x_i,y_i)$表示,其中$y_i \in \pm 1$。一组线性分类器的经验风险定义为训练集上的平均损失:

\[\ell(W)=\frac{1}{n} \sum_{t=1}^{m}\sum_{i \in I(t)} l(w_t^T x_i,y_i) \]

定义$U=11^T/m,\Pi=I-U$。寻找一组权重向量$W$以最小化经验风险,也就是说,目标是:

\[\min_W \ell(W)+\lambda \Omega(W) \]

其中$\lambda \Omega(W)$可以从先验知识来约束一些设计任务之间的信息共享。这里将任务分为$r<m$组,对于$c \in [1,r]$,用$J(c) \subset [1,m]$表示这个组中包含的任务,$m_c=|J(c)|$表示组中的任务数目。$m \times r$的矩阵$E$表示任务的聚类情况,当且仅当任务$i$在第$j$组中时,$E_{ij}=1$。最后是一个矩阵:

\[M=E(E^T E)^{-1}E^T=I-L \]

然后就可以从三个方面来定义半正则化函数:

\[\Omega_{mean}(W)=n||\bar w||^2=trWUW^T \]

\[\Omega_{between}(W)=\sum_{c=1}^{r}m_c||\bar w_c - \bar w||^2=trW(M-U)W^T \]

\[\Omega_{within}(W)=\sum_{c=1}^{r}\sum_{i \in J(c)}||w_i-\bar w_c||^2=trW(I-M)W^T \]

\[\Omega(W) = \epsilon_M \Omega_{mean}(W) + \epsilon_B \Omega_{between}(W) + \epsilon_W \Omega_{within}(W) \]

将其代入得到一般的问题:

\[\min_W \ell(W)+\lambda trW\Sigma(M)^{-1}W^T \]

\[\Sigma(M)^{-1}=\epsilon_M U + \epsilon_B (M-U) + \epsilon_W (I-M) \]

一般来说,选取$\epsilon_W > \epsilon_B > \epsilon_M$,这使得组内方差的权重大于组间方差的权重。

凸松弛方法

在$\Omega(W)$的表达式中,作者观察到聚类结构只对后两项做出贡献,从矩阵的角度讲 $\Sigma(M)^{-1}$的表达式中只有后两项和$M$相关。因此可以改写为:

\[\epsilon_B (M-U) + \epsilon_W (I-M) = \Pi(\epsilon_B M + \epsilon_W (I-M))\Pi \]

令$\tilde M = \Pi M \Pi$,则有:

\[trW\Sigma(M)^{-1}W^T= \epsilon_M(trW^TWU)+(W\Pi)(\epsilon_B \tilde M + \epsilon_W (I-\tilde M))(W\Pi)^T \]

在一个组内有$\Sigma_c(M)=(\epsilon_B^{-1}-\epsilon_W^{-1})\tilde M + \epsilon_W^{-1}I$,这是一个离散的构造,因此是非凸的。因此,一个离散矩阵集合的凸松弛可能为$\tilde M: 0 \preceq \tilde M \preceq I,tr \tilde M=r-1 $,对于上述非凸构造有一个等效凸集:

\[S_c = \Sigma_c \in S_+^m: \epsilon_W^{-1} I \preceq \Sigma_c \preceq \epsilon_B^{-1} I,tr\Sigma_c = \gamma \\ \gamma = (m-r+1)\epsilon_W^{-1} + (r-1)\epsilon_B^{-1} \]

定义$\ell_c(W) = \lambda \ell(W) +\epsilon_M(trW^TWU)$,可以将目标改写为:

\[\min_{W,\Sigma_c} \ell_c(W) +\lambda trW\Pi\Sigma_c^{-1}(W\Pi)^T \]

posted @ 2020-10-07 17:20 ArkBagpipe 阅读(147) 评论(0) 收藏举报

刷新页面返回顶部

ArkBagpipe

Cluster Multi-Task Learning a Convex Formulation 阅读笔记

摘要

任务聚类中的多任务学习

凸松弛方法

公告