MINER论文阅读笔记
MINER: Multi-Interest Matching Network for News Recommendation论文阅读笔记
Abstract
现存的问题:
大多数现有的方法从用户的历史行为中学习单个用户嵌入来表示阅读兴趣。然而,用户的兴趣通常是多样的,可能不能被单个用户嵌入充分建模。
解决方案:
在本文中,我们提出了一种多注意力方案,为每个用户学习多个兴趣向量,这些兴趣向量编码了用户兴趣的不同方面。我们还提出了一种不一致正则化方法,使学习到的兴趣向量更加多样化。此外,我们还设计了一种类别感知注意力加权策略,将新闻类别信息作为明确的兴趣信号纳入注意力机制。
Introduction
用户的兴趣通常是不同的。用户可能对不同类型的新闻感兴趣,如金融、体育和电影。因此,上述方法通过单个用户嵌入来准确地建模用户兴趣是不够的,特别是当用户具有较长浏览历史的多个兴趣时。
在本文中,我们提出了一种用于新闻推荐的多兴趣匹配网络(即 MINER),它能有效捕捉用户阅读兴趣的多样性。具体来说,我们首先采用预训练的 BERT作为新闻编码器,该编码器在文本语义建模方面非常有效。利用编码后的新闻表示序列,我们提出了一种多关注方案,为每个用户提取多个兴趣向量。我们会为每个兴趣向量计算匹配分数,并通过单个分数汇总最终的匹配分数。我们研究了各种聚合方法,包括最大值、平均值和加权和。
此外,为了使提取的用户兴趣表征更加多样化,我们提出了一种不一致正则化方法,它可以扩大不同兴趣向量之间的距离。此外,新闻类别信息通常是可用的,它揭示了明确的用户兴趣信号。为了捕捉这些信号,我们在聚合注意力中提出了一种类别感知的注意力加权策略,即根据历史新闻与候选新闻的类别相似度对历史新闻进行重新加权。
本文的主要贡献如下:
- 我们在新闻推荐中提出了一种多关注方案,为每个用户提取多个兴趣向量。我们进一步改进了这一方案,采用了不一致正则化方法,使提取的向量更加多样化。
- 我们在聚合注意力中提出了一种类别感知的注意力加权策略,它能捕捉明确的类别信号,用于用户兴趣建模。
Method
在本节中,我们首先阐述了个性化新闻推荐的问题。然后,我们详细介绍了我们提出的MINER,其总体框架如下所示。
新闻编码器
新闻编码器是新闻推荐的核心组件之一,旨在从文本中学习新闻的嵌入。本文采用预训练的 BERT作为新闻编码器,它能有效捕捉新闻文本的深层语义。因此,用户 u 和候选新闻 nc 分别被编码为\(\mathbf{H}^u=[\mathbf{h}_1,\mathbf{h}_2,...,\mathbf{h}_M]\)和 hc。
多兴趣的用户建模
新闻推荐的另一个核心组件是用户建模,它接收一系列被点击的新闻嵌入作为输入和输出用户表示u,总结用户兴趣信息。传统上,单个嵌入向量是通过顺序或注意的方法来学习的。然而,用户的兴趣通常是多种多样的。我们认为,用一个表示向量来表示用户兴趣可能会成为新闻推荐的瓶颈,因为我们必须把与用户不同兴趣相关的所有信息压缩到一个表示向量中。相反,我们建议学习多个表示向量来表达用户的不同兴趣。
具体来说,我们开发了一种多注意力方案,通过 K 个加法注意力为每个用户提取 K 个兴趣向量。我们的方法受到最近提出的 PolyEncoder的启发,并将其想法从单词序列推广到用户行为序列。具体而言,我们引入了 K 个可学习的上下文编码,即 c1、c2、......、cK,其中每个 ci 通过对点击新闻嵌入序列的关注提取兴趣嵌入 ei:
\(\mathbf{e}_i=\sum_{j=1}^Mw_j^{c_i}\mathbf{h}_j,w_j^{c_i}=\text{softmax}(\phi_h^{c_i}(\mathbf{h}_j)),\)
\(\phi_h^{c_i}(\cdot)\)是一个基于上下文代码ci和新闻表示h的密集网络:
\(\phi_h^{c_i}(\mathbf{h}_j)=\mathbf{c}_i^\top\tanh(\mathbf{W}^h\mathbf{h}_j),\)
通过这种方法,我们提取了多个用户兴趣向量\(\mathbf{E}^u=[\mathbf{e}_1,\mathbf{e}_2,...,\mathbf{e}_K]\),每个向量代表用户兴趣的某些方面。注意,兴趣向量是通过软注意来学习的,因此它们可能没有明确的含义。
分歧正则化
由于所提出的多注意力旨在捕捉用户兴趣的独特性,因此使提取的兴趣表征更加多样化是有益的。为此,我们进一步提出了一种分歧正则化方法来改进多注意力,即在训练过程中扩大不同兴趣向量之间的距离(这部分跟2020年SIGIR的DGCF的思路很相似)。具体来说,我们通过归一化向量的点积计算每对兴趣向量之间的余弦相似度。然后,我们的训练目标就是最小化所有兴趣向量对之间的平均余弦相似度(即最大化距离)。正则化项的形式表达为
\(\mathcal{L}_D=\frac1{K^2}\sum_{i=1}^K\sum_{j=1}^K\frac{\mathbf{e}_i^\top\mathbf{e}_j}{\|\mathbf{e}_i\|\|\mathbf{e}_j\|},\)
其中K是兴趣向量的数量
点击预测
对于每个兴趣向量ei,我们通过内积计算与候选新闻表示hc的匹配分数:
\(s_i=\mathbf{e}_i^\top\mathbf{h}^c.\)
我们提出了几种聚合K个匹配分数作为最终用户点击分数的方法,包括:
- MINER-max:取个体分数的最大值
- MINER-mean:取个体分数的平均值
- MINER-weighted 采用目标感知注意力网络,根据候选新闻 hc 与兴趣向量 ei 之间的相关性对各个分数进行加权求和,即
\(\begin{aligned}&s=\sum_{i=1}^Kw_is_i,\\&w_i=\text{softmax}(\mathbf{e}_i^\top\text{gelu}(\mathbf{W}^e\mathbf{h}^c)),\end{aligned}\)
类别感知的注意力权重
在新闻推荐数据集中,通常有类别标签(如体育、健康)。除了通过软关注了解到的隐式用户兴趣外,类别信息还可以被视为显式用户兴趣信号。
直观地说,用户倾向于点击某些类别的新闻。例如,有些用户经常点击体育新闻。因此我们可以推断,他有很大可能会点击另一条体育新闻或类似的健身新闻。因此,我们提出了一种类别感知的注意力加权策略,根据历史新闻与候选新闻的类别相似度对历史新闻进行重新加权,即相似类型的新闻具有更高的权重。
具体来说,我们首先通过预训练的 Glove向量将每条新闻的类别词(如体育)转移到词嵌入中。然后,我们在提取用户兴趣嵌入的公式中修改历史新闻的关注权重 \(w_j^{c_i}\),并增加一个偏差项:
\(w_j^{c_i}=\text{softmax}(\phi_h^{c_i}(\mathbf{h}_j)+\underline{\lambda\cos(\mathbf{b}_j,\mathbf{b}_c)}),\)
其中,bj和bc表示第j条历史新闻和候选新闻的类别嵌入。
需要注意的是,由于 softmax 函数中的指数运算,将原始 logit 相似度 \(\phi_h^{c_i}(\mathbf{h}_j)\)加上偏置项 λ cos(·),相当于将注意力分布乘以一个缩放因子。这样,我们就学会了根据类别信息对历史新闻重新加权。
模型训练
这里采用NCE损失函数来训练模型:
\(\mathcal{L}_{NCE}=-\sum_{i=1}^{|\mathcal{D}|}\log\frac{\exp(s_i^+)}{\exp(s_i^+)+\sum_{j=1}^L\exp(s_i^j)}.\)
然后损失函数还需要加上分歧正则化的损失函数,最终的损失函数为:
\(\mathcal{L}=\mathcal{L}_{NCE}+\beta*\mathcal{L}_D,\)
总结
这篇文章比较好懂,就贴一下原文的总结
在本文中,我们提出了一种名为 MINER 的新闻推荐方法,以从历史阅读行为中捕捉不同的用户兴趣,而不是现有的大多数学习单一用户嵌入来表示阅读兴趣的方法。具体来说,我们提出了一种多注意力方案,通过软注意力来学习多个用户兴趣向量,从而对用户兴趣的不同方面进行编码。我们进一步提出了一种不一致正则化方法来改进多注意力,从而使学习到的兴趣向量更加多样化。此外,我们还设计了一种类别感知注意力加权策略,根据类别相似性对历史新闻进行重新加权


浙公网安备 33010602011771号