Cluster Multi-Task Learning a Convex Formulation 阅读笔记
摘要
在多任务学习中,希望通过任务间适当的信息共享,使每个任务都能从其他任务中获益。在本文中,假设各个任务事先被聚类到事先未知的组中,并且组内的任务具有相似的权向量。作者设计了一个新的谱范数来编码这个先验假设,在不考虑任务分组的先验知识的情况下,得到了一个新的多任务学习凸优化公式。即,假设先验知识已知,如何设计正则化方法来执行它?
任务聚类中的多任务学习
考虑\(m\)个相关的任务,训练数据用\((x_i,y_i)\)表示,其中\(y_i \in \pm 1\)。一组线性分类器的经验风险定义为训练集上的平均损失:
定义\(U=11^T/m,\Pi=I-U\)。寻找一组权重向量\(W\)以最小化经验风险,也就是说,目标是:
其中\(\lambda \Omega(W)\)可以从先验知识来约束一些设计任务之间的信息共享。这里将任务分为\(r<m\)组,对于\(c \in [1,r]\),用\(J(c) \subset [1,m]\)表示这个组中包含的任务,\(m_c=|J(c)|\)表示组中的任务数目。\(m \times r\)的矩阵\(E\)表示任务的聚类情况,当且仅当任务\(i\)在第\(j\)组中时,\(E_{ij}=1\)。最后是一个矩阵:
然后就可以从三个方面来定义半正则化函数:
将其代入得到一般的问题:
一般来说,选取\(\epsilon_W > \epsilon_B > \epsilon_M\),这使得组内方差的权重大于组间方差的权重。
凸松弛方法
在\(\Omega(W)\)的表达式中,作者观察到聚类结构只对后两项做出贡献,从矩阵的角度讲 \(\Sigma(M)^{-1}\)的表达式中只有后两项和\(M\)相关。因此可以改写为:
令\(\tilde M = \Pi M \Pi\),则有:
在一个组内有\(\Sigma_c(M)=(\epsilon_B^{-1}-\epsilon_W^{-1})\tilde M + \epsilon_W^{-1}I\),这是一个离散的构造,因此是非凸的。因此,一个离散矩阵集合的凸松弛可能为$\tilde M: 0 \preceq \tilde M \preceq I,tr \tilde M=r-1 $,对于上述非凸构造有一个等效凸集:
定义\(\ell_c(W) = \lambda \ell(W) +\epsilon_M(trW^TWU)\),可以将目标改写为:

浙公网安备 33010602011771号