Multitask Learning Over Graphs 阅读笔记

引言

\(\quad\)多任务学习是一种诱导迁移学习的方法,通过使用相关任务的训练信号中包含的信息来辅助另一个问题。在假设所有数据都可以事先获得的情况下,这个问题已有了一些比较完善的策略。
\(\quad\)但是近年来,数据在越来越多的场景下是以分布式或者流式的结构出现的,这就需要新的方法。本文介绍了在网络上学习和适应的多任务学习策略,各个智能体被允许相互合作来学习不同相关的任务。
\(\quad\)考虑一个由\(n\)个独立的智能体构成的网络,智能体\(k\)的邻域为\(N_k\)。每个智能体都有一个凸性的、可微分的实数值代价\(J_k(w_k)\),而智能体\(k\)处的目标就是估计参数\(w_k^o\),使得\(J_k(w_k)\)最小。文章首先描述了一类能够实时响应流式数据的非协作方案,然后解释了如何扩展这些方案来处理图上的MTL。

流数据下的非合作学习

\(\quad\)为解决流式数据下随机性的问题,数据的分布通常是未知的,即参数\(w\)的梯度未知,需要使用近似梯度\(\hat{\nabla w_k J_k(·)}\)。求解所需要的随机梯度下降法为:

\[w_{k,i}=w_{k,i-1}-\mu \hat{\nabla w_k J_k(w_{k,i-1})} \]

\(\quad\)以均方误差(MSE)网络为例,每个智能体接收流式数据\(d_k (i),u_{k,i}\),满足线性关系

\[d_k(i)=u^{\top}_{k,i} w_k^o + v_k (i) \]

风险函数采用MSE代价的形式:

\[J_k (w_k) = \frac{1}{2} E(d_k (i) - u^\top_{k,i}w_k)^2 \]

\(\quad\)代入随机梯度下降法就得到了著名的最小均方算法:

\[w_{k,i}=w_{k,i-1}+\mu u_{k,i} (d_k (i) - u^\top_{k,i}w_{k,i-1}) \]

\(\quad\)使用近似梯度而不是真正的梯度给系统带来了一定的扰动,称之为梯度噪声:

\[s_{k,i} (w_k)=w_k J_k(w_k)-\hat{w_k J_k(w_k)} \]

\(\quad\)在评估这些波动的大小时,通常测量稳态均方差MSD,期望各个智能体之间互相合作能够帮助提高系统性能:

\[MSD=\lim_{i \to \infty} \frac{1}{N} \sum_{k=1}^{N} E {\parallel{w_k^o - w_{k,i}} \parallel }^2 \]

多任务学习框架

\(\quad\)引入一个通用问题,设网络的参数向量矩阵为\(W=col [w_1,···,w_n]\),考虑多任务的全局优化问题:

\[W^* = arg\,\min_{W} J^{glob} (W) = \sum_{k=1}^{N}J_k(w_k) + \frac{\eta}{2}R(W),W \in \Omega \]

\(\quad\)其中\(R\)是促进任务间关系的正则化函数,\(\Omega\)是定义参数可行域的凸集,\(\eta\)是正则化权重参数。针对如何使用上式,作从美国天气预报和电力系统状态监控两个方面进行了举例分析。
\(\quad\)在MTL中,正则化被广泛用于促进任务关系。在大多数网络应用程序中,底层图结构包含邻近任务之间的相关性信息。\(W\)在图上的平滑性以拉普拉斯矩阵的二次形式度量:

\[S(W) = W^\top \mathcal{ L} W = \frac{1}{2} \sum_{k=1}^{N} \sum_{l \in N_k} c_{kl} {\parallel w_k-w_l \parallel}^2 \]

\(\quad\)在优化问题中可以选择\(R(W) = S(W)\),在此选择下\(W_i= \psi_i - \mu \eta \mathcal{ L} W(i-1)\)。通过增加正则化强度,方差项可能减小,而偏差项可能增大,理解这种偏差-方差的折中对理解正则化多任务算法十分重要。
\(\quad\)在图谱正则化中通常有替换:

\[r(\mathcal{ L})= \sum_{m=1}^{N}r(\lambda_m) v_m v^\top_m \]

\(\quad\)作者从图谱滤波的角度举例作出了分析,网络上的MTL允许将实时自适应与图形/空间滤波相结合。此外,作者还对子空间约束下的多任务学习进行了讨论。

posted @ 2020-09-24 11:00  ArkBagpipe  阅读(114)  评论(0)    收藏  举报