Cluster Multi-Task Learning a Convex Formulation 阅读笔记

摘要

在多任务学习中,希望通过任务间适当的信息共享,使每个任务都能从其他任务中获益。在本文中,假设各个任务事先被聚类到事先未知的组中,并且组内的任务具有相似的权向量。作者设计了一个新的谱范数来编码这个先验假设,在不考虑任务分组的先验知识的情况下,得到了一个新的多任务学习凸优化公式。即,假设先验知识已知,如何设计正则化方法来执行它?

任务聚类中的多任务学习

考虑\(m\)个相关的任务,训练数据用\((x_i,y_i)\)表示,其中\(y_i \in \pm 1\)。一组线性分类器的经验风险定义为训练集上的平均损失:

\[\ell(W)=\frac{1}{n} \sum_{t=1}^{m}\sum_{i \in I(t)} l(w_t^T x_i,y_i) \]

定义\(U=11^T/m,\Pi=I-U\)。寻找一组权重向量\(W\)以最小化经验风险,也就是说,目标是:

\[\min_W \ell(W)+\lambda \Omega(W) \]

其中\(\lambda \Omega(W)\)可以从先验知识来约束一些设计任务之间的信息共享。这里将任务分为\(r<m\)组,对于\(c \in [1,r]\),用\(J(c) \subset [1,m]\)表示这个组中包含的任务,\(m_c=|J(c)|\)表示组中的任务数目。\(m \times r\)的矩阵\(E\)表示任务的聚类情况,当且仅当任务\(i\)在第\(j\)组中时,\(E_{ij}=1\)。最后是一个矩阵:

\[M=E(E^T E)^{-1}E^T=I-L \]

然后就可以从三个方面来定义半正则化函数:

\[\Omega_{mean}(W)=n||\bar w||^2=trWUW^T \]

\[\Omega_{between}(W)=\sum_{c=1}^{r}m_c||\bar w_c - \bar w||^2=trW(M-U)W^T \]

\[\Omega_{within}(W)=\sum_{c=1}^{r}\sum_{i \in J(c)}||w_i-\bar w_c||^2=trW(I-M)W^T \]

\[\Omega(W) = \epsilon_M \Omega_{mean}(W) + \epsilon_B \Omega_{between}(W) + \epsilon_W \Omega_{within}(W) \]

将其代入得到一般的问题:

\[\min_W \ell(W)+\lambda trW\Sigma(M)^{-1}W^T \]

\[\Sigma(M)^{-1}=\epsilon_M U + \epsilon_B (M-U) + \epsilon_W (I-M) \]

一般来说,选取\(\epsilon_W > \epsilon_B > \epsilon_M\),这使得组内方差的权重大于组间方差的权重。

凸松弛方法

\(\Omega(W)\)的表达式中,作者观察到聚类结构只对后两项做出贡献,从矩阵的角度讲 \(\Sigma(M)^{-1}\)的表达式中只有后两项和\(M\)相关。因此可以改写为:

\[\epsilon_B (M-U) + \epsilon_W (I-M) = \Pi(\epsilon_B M + \epsilon_W (I-M))\Pi \]

\(\tilde M = \Pi M \Pi\),则有:

\[trW\Sigma(M)^{-1}W^T= \epsilon_M(trW^TWU)+(W\Pi)(\epsilon_B \tilde M + \epsilon_W (I-\tilde M))(W\Pi)^T \]

在一个组内有\(\Sigma_c(M)=(\epsilon_B^{-1}-\epsilon_W^{-1})\tilde M + \epsilon_W^{-1}I\),这是一个离散的构造,因此是非凸的。因此,一个离散矩阵集合的凸松弛可能为$\tilde M: 0 \preceq \tilde M \preceq I,tr \tilde M=r-1 $,对于上述非凸构造有一个等效凸集:

\[S_c = \Sigma_c \in S_+^m: \epsilon_W^{-1} I \preceq \Sigma_c \preceq \epsilon_B^{-1} I,tr\Sigma_c = \gamma \\ \gamma = (m-r+1)\epsilon_W^{-1} + (r-1)\epsilon_B^{-1} \]

定义\(\ell_c(W) = \lambda \ell(W) +\epsilon_M(trW^TWU)\),可以将目标改写为:

\[\min_{W,\Sigma_c} \ell_c(W) +\lambda trW\Pi\Sigma_c^{-1}(W\Pi)^T \]

posted @ 2020-10-07 17:20  ArkBagpipe  阅读(147)  评论(0)    收藏  举报