CAST论文阅读笔记

Is It Enough Just Looking at the Title?: Leveraging Body Text To Enrich Title Words Towards Accurate News Recommendation论文阅读笔记

Abstract

在新闻推荐系统中，如果用户通过查看新闻标题对文章主题感兴趣，就会倾向于点击该文章。这种行为是可能的，因为在查看标题时，人类会利用自身的背景知识，自然而然地想到每个标题单词的上下文含义。

受此启发，我们提出了一种新颖的个性化新闻推荐框架 CAST（带有标题词表示选择模块的上下文感知注意力网络），它能够利用正文作为上下文来丰富标题词，而正文则完全提供了给定文章的全部内容。通过大量实验，我们证明了（1）CAST 核心模块的有效性；（2）CAST 优于 9 种最先进的新闻推荐方法；以及（3）CAST 的可解释性。

Introduction

用户倾向于阅读推荐给他们的新闻文章的标题，然后根据标题了解到的主题做出是否感兴趣的点击决定。因此，现有研究大多侧重于分析新闻文章的标题文本，以预测用户对新闻文章的偏好。用户很容易利用自身的背景知识掌握标题中每个词的上下文含义；然而，新闻推荐系统仅凭标题文本很难全面理解标题词的上下文含义，因为标题文本只是由几个词组成的短句。从这个意义上说，我们认为生成新闻表示的新闻编码器应该正确捕捉标题中没有明确显示的标题词的上下文。

我们的工作是基于这样一个事实，即在只查看标题时，人类会凭借其背景知识自然而然地捕捉到每个标题词的上下文含义。为了更准确地把握标题词的上下文意义，我们的目标是利用正文文本作为上下文来丰富新闻推荐中的每个标题词。

在本文中，我们提出了一个用于个性化新闻推荐的新型框架 CAST（带有标题词表示选择模块的语境感知注意力网络）。为此，作为 CAST 的关键组成部分，我们设计了一个复杂的新闻编码器，利用正文作为上下文的来源。具体来说，CAST 首先只选择与目标标题词相关的一些正文词作为上下文，这与选择模块相对应；然后，CAST 计算上下文中词语的关注权重，这与上下文感知关注网络相对应。通过根据每个标题词的上下文学习正文词的不同重要程度，CAST 能够更有效地理解每个标题词的上下文含义。我们的实证研究结果表明，CAST（1）通过利用正文有效地捕捉了与标题词相关的上下文；（2）提高了新闻表征的质量，从而比 9 个最先进的新闻推荐系统提高了推荐准确率；（3）通过可视化为标题词的上下文提供了解释。

（上面描述的可能单看文字不好理解，后面看图就很清楚了）

Method

CAST的框架如下：

新闻编码器

如图 2-(a) 所示，我们的新闻编码器由五个模块组成：单词表示、正文单词选择、上下文感知注意力、标题表示和新闻表示。

单词表示

将标题文本和正文文本转化为表示矩阵。为此，我们使用一个可学习的表示矩阵 W𝑤 ，该矩阵由预训练的 GloVe初始化：每一行都是与单词索引相对应的嵌入向量；

正文单词选择

一些正文词可能与给定的标题词\(w_j^t\)无关。为了过滤掉这些不相关的词，我们在新闻编码器中引入了选择模块。给定标题中的第𝑗个词 \(w_j^t\)，该模块首先计算其标题词嵌入\(e_j^t\)与每个正文词嵌入\(e_l^b\)之间的相似度。然后，它会选择与\(e_j^t\)相似度最高的top-K个正文词，其中 K是一个根据经验确定的超参数。然后，我们建立一个矩阵\(\mathbf{E}^K\in\mathbb{R}^{K\times d_e}\)，该矩阵由仅与所选的top-k的正文词表示组成。

上下文感知的注意力网络

接下来，我们生成上下文的表示矩阵\(\mathbf{X}(w_j^t)\in\mathbb{R}^{(K+1)\times d_e}\)，定义为\(\mathbf{X}(w_j^t)=[\mathbf{e}_j^t||\mathbf{E}^K]\)。通过连接\(e_j^t\)和 \(\mathbf{E}^K\)，有助于理解\(w_j^t\)的上下文含义。每个特征向量\(\mathbf{x}_l\in\mathbf{X}(w_j^t)\)可能具有不同的重要程度，这就需要设计一个上下文感知注意力网络，来生成标题词的上下文单词表示\(\mathbf{c}_j^t=\mathbf{W}_v\left(\sum_{l=1}^{K+1}\alpha_l^w\mathbf{x}_l\right),\)

我们对标题文本 t 中的所有单词进行上述处理，得到 t 的上下文单词表示矩阵\(\mathbf{C}^t=[\mathbf{c}_1^t,\mathbf{c}_2^t,\cdots,\mathbf{c}_N^t]\)

标题表示

标题文本 t 中的不同词语在表示标题时可能具有不同程度的信息量。因此，我们通过选择重要的上下文词语表征来生成标题表征\(r^t\)，如下所示

\(\mathbf{r}^t=\sum_{j=1}^N\beta_j^t\mathbf{c}_j^t,\)

新闻表示

基本上，新闻编码器使用标题表示\(r^t\)来表示新闻文章 𝑑。众所周知，分类特征（如类别𝑐和子类别𝑠𝑐）是理解文章主题的信息线索，因此我们最终得到新闻的表示：

\(\mathbf{r}^d=\left[\begin{array}{c}\mathbf{r}^t||\mathbf{r}^c||\mathbf{r}^{sc}\end{array}\right],\)

用户编码器

我们首先获取历史新闻经过新闻编码器的表示，我们通过考虑𝑢 兴趣多样性来生成𝑢 的用户表征\(r_u\)。为此，我们根据候选者感知注意力网络计算出的注意力权重，将 H 中的所有新闻表征进行汇总，也就是使用注意力网络聚合一下新闻表示作为用户表示。

预测和模型训练

还是传统的表示点积的形式进行点击预测，最终的损失函数如下：

\[\mathcal{L}=-\sum_{\mathcal{U}}\sum_{I^{\boldsymbol{u}}}\sum_{s}\log\left(\frac{\exp(\hat{y}_{\boldsymbol{u},\boldsymbol{p}})}{\exp(\hat{y}_{\boldsymbol{u},\boldsymbol{p}})+\sum_{\boldsymbol{q}=1}^{Q}\exp(\hat{y}_{\boldsymbol{u},\boldsymbol{n}\boldsymbol{q}})}\right), \]

总结

这篇文章讲的还是非常清晰的，看模型图就能看明白许多，这里贴一下原文的conclusion

本文旨在设计一种能有效理解标题词上下文含义的高质量新闻编码器。为此，我们提出了一种新颖的新闻推荐框架--CAST，它利用正文作为语境来丰富标题词。通过大量实验，我们证明了 CAST 核心模块的有效性，以及 CAST 优于 9 种最先进方法的优势。

posted @ 2024-07-19 10:41 ANewPro 阅读(37) 评论(0) 收藏举报

刷新页面返回顶部

ANewPro

慢慢遇见，好好生活