[论文翻译]Practical Diversified Recommendations on YouTube with Determinantal Point Processes

ABSTRACT(摘要)

许多推荐系统产生的结果集包含大量高度相似的项目(items)。使这些结果多样化通常是通过启发法来实现的,这些模型(impoverished models)往往不能满足用户多样化需求。然而,将更复杂的多样性统计模型集成到大规模、成熟的系统中是一项艰巨的任务。由于模型对多样性的定义与用户对多样性的感知不匹配,因此很容易降低用户对推荐的感知(perception)。在这项工作中,我们提出了一个基于确定性点过程的多样性统计模型。我们使用一个简单的过程从用户偏好的示例中训练这个模型,这个过程可以相对容易地集成到大型和复杂的生产系统中。我们使用一种近似推理算法为模型提供大规模服务,同时YouTube主页流量的经验结果表明,该模型与重排算法相结合,可以在短期和长期内显著提高用户满意度。

1 INTRODUCTION(简介)

在线推荐服务通常以feed流的形式呈现内容——feed用户浏览的有序item列表。例如,YouTube的移动主页feed和facebook的新闻feed。目标是选择和整理(order)一组k个item,使该集的效用最大化。很多时候,推荐系统会根据物品质量进行排名——给每件物品i打质量指数 \(q_i\) ,并根据分数排序。然而,这是次优的,因为点态估计器(pointwise estimator)忽略了item之间的相关性。例如,假设一个篮球视频已经在页面上显示过,那么现在显示另一个篮球视频可能就没有那么有用了。类似的视频质量分数也差不多,这一事实进一步加剧了这一问题(显示另一篮球)。不幸的是,即使我们构建了一个良好的set-wise的估计器,对排序列表的每一个可能的排列进行评分代价是非常高的。
在本文中,我们应用了一种特殊的机器学习模型,称为行列式点过程(DPP)[4,13,22],这是一种斥力的概率模型,可用于分散推荐项集(如视频、书籍或搜索结果列表)[7,14,20,21]。DPP的一个关键方面是,它可以有效地对整个item列表进行评分,而不是逐个地对每个item进行评分,这使我们能够更好地考虑item相关性。
在一个成熟的推荐系统中实现一个基于dpp的解决方案是非常重要的。首先,DPPs的训练方法与典型的推荐系统有明显的不同[3,12,14,20,21,26,27]。其次,将DPP运算化与现有的推荐系统相结合是复杂的。一种选择是根据set-wise对整个基础设施进行重组,但这将放弃对现有点态估计器的大量工作(investment)。相反,我们在现有基础设施上使用dpp作为最后一层模型。这允许各种底层系统组件独立地运行。特别地,对于一个大规模的推荐系统,我们建立一个DPP需要使用两个输入:1)从深层神经网络构建的点态估计器[9],其给出了item质量分\(q_i\)的高精度估计;2)在稀疏语义嵌入空间中计算item间的成对距离\(D_{ij}\)(例如[19])。根据这些输入,我们构造一个DPP并将其应用于feed中的前n个条目。我们的方法的优势是使研究团队能够在开发一个set-wise的评分系统的同时,继续开发\(q_i\)\(D_{ij}\)估计器。因此,我们可以在利用大规模预测系统现有工作的同时,实现我们的多样化目标。YouTube上的经验结果显示,用户满意度在短期和长期内都有显著提高。
我们的贡献是:
(1)我们提供了一个简单而有效的程序,其利用dpp来实现集合推荐(set-wise reccommendations)。我们定义了一个参数化的DPP学习算法,该算法利用了物品的点态质量分数和物品之间的两两距离。
(2)我们描述了一种实用的、模块化的方法,它可以应用于延迟敏感的、大规模的推荐系统。
(3)我们提供了在线和在线的经验结果,证实了我们的方法在一个成熟的、大规模的推荐系统上提高了推荐的准确性。
论文组织如下。我们从§2中的相关工作开始。我们在§3中描述了当前的推荐系统的多样性需求,在§3.2中定义了基本术语。在§4中,我们简要回顾了DPP,然后描述了我们目前对DPP内核的选择,在更复杂的内核上的工作,以及使用这些内核的排序算法。最后,我们在§5中总结了我们的在线实验结果,并在§6中总结了一些结论。

2 RELATED WORK

目前的推荐研究一般集中在改进点态估计\(q_i\),即预测用户对某一特定商品的喜爱程度。这条研究路线最初始于20多年前,当时使用的是基于用户的协同过滤[34]和基于item的协同过滤[36],然后使用矩阵分解技术重构[19]。在我们的系统中,我们现在从深度神经网络中获得这些点态估计,在这个系统中,用户的偏好特征与项目特征相结合,来估计用户兴趣特征(user’s preference features)[9]。
在这些研究过程中,还对用户在推荐结果中的新颖性和多样性需求进行了重要的研究[16,24,29,39,41,43,45]。类似地,在诸如web搜索等信息检索系统的各个方面也有重大的研究工作[6、8、10、11、15、33、35、40、42]。考虑到所有这些文献,研究人员提出了许多多样化的概念。在这里,我们简要地总结和对比了关于内容多样化目的的两种不同的观点。

2.1 Diversification to Facilitate Exploration(对应多样化的探索与利用)

首先,多样化有时被视为促进探索与利用的一种方式;向用户显示更多样化的内容将(A)帮助他们发现感兴趣的新主题或(B)帮助推荐系统发现更多关于用户的信息。
为了发现用户意图,利用分类法来解决用户意图的模糊性是信息检索的一个工作方向[2,35]。例如,[2]中的IA-Select使用一个分类法来覆盖一个模糊的查询,然后目标是最大化用户将选择至少一个返回结果的概率。桑托斯等人的[35]估计如何排名的结果涵盖了一个不明确的问题的答案的一个方面。虽然这些方法需要一个特定的分类问题,但我们提供的解决方案只需要未校准的item距离(校准是作为培训程序的一部分来学习的)。
为了便于发现主题,如果一个主题包含多个方面,则可以进一步将该主题划分为子主题,然后确保检索到的结果很好地涵盖了每个子主题[10,40,42]。例如,Dang等人提出返回一个,每个主题的覆盖率与该主题的受欢迎程度成比例的结果列表。另一个例子是,Perez等人[32]使用商业类别来确保局部商业推荐问题的推荐结果具有充分的主题覆盖。在[23]中,Kwon和Adomavicius认为,用户可能想要一个多标准评级系统,在这个系统中,他们可以指定他们想要的推荐的哪些方面。与这些方法相比,我们能够直接根据用户行为学习到适当的覆盖率。
也许值得注意的是,虽然在某种程度上,所有的推荐都可能发生探索,但关于用户偏好和相关推荐的不完全信息是有趣的——有害的正交问题。如果存在不相关的建议,仍然需要探索;如果存在完美的信息,仍然需要差异分析。
在某种程度上,与多样性探索观点相一致的是,它是一个次要的产品目标。这个观点提出了多样性和效用之间的基本平衡,并且可以看到在尽可能增加多样性度量的同时又不会对效用造成太大的伤害的工作。在最近与我们类似的工作中,Chen等人([7])描述了如何在不损害用户效用的情况下使用dpp优化探索。与他们的DPP内核参数化不同的是,我们的工作不仅提供了离线实验,而且提供了大规模的在线实验。相比之下,更重要的是,我们优化了用户效用,同时增加了使用DPP的多样性。

2.2 Diversification in Service of Utility(效用服务中的多样性)

关于多样性的另一个观点,也是我们在这项工作中所采用的观点,是多样性直接为效用服务——通过适当的多样化曝光(impressions),一个观点是可以最大化feed的效用。从这个角度看,多样性纯粹是交互的相关,而增加多样性意味着用用户更可能同时欣赏的替代方式来替换冗余的视频曝光。这些新视频通常个人得分较低,但整体页面质量较好。
简而言之,实现多样性的一种方法是避免冗余,这对于推荐系统来说尤为重要[5,30,32,43,45]。例如,在他们2005年的开创性工作中,Ziegler等人使用贪婪算法对书籍分类,最小化推荐条目之间的相似性。然后使用一个多样化因子将输出与一个非多样化结果列表合并。在信息检索的另一项开创性工作中,Carbonell和Goldstein[5]提出了最大边缘关联(MMR)方法。此方法每次迭代选择一个item。item的分数与它的相关性减去一个惩罚项成正比,惩罚项衡量的是它与之前选择的item的相似性。在[32]中还研究了其他关于冗余的明确概念,它使用了一个关于成对相似性的衰减函数。最近,Nassif等人描述了一种使用子模块优化来多样化音乐推荐的方法。Lin和Bilmes[25]描述了一种使用子模块函数来执行文档摘要的方法,该任务具有与集合多样化(set diversification)任务类似的覆盖目标。Tschiatschek等人的[38]描述了一种使用子模块最大化来选择item序列的方法,而Teo等人的[37]描述了使用子模块多样化来根据类别重新排列顶级item。我们的目标在本质上非常相似,但是使用了不同的优化技术。此外,我们不把item多样性作为一个先验目标;我们的目标仅仅是通过向整个推荐系统提供多样性信息来增加用户正向交互的数量。人们可以想象在这里的模型上迭代来表达个性化的多样性概念。内容流推荐可以方便地应用这种方法,因为(与搜索不同)用户通常不寻找特定的item,并且可能在会话过程中与多个item交互。
冗余概念可以进一步分解为两个独立的相关概念:替代和补充(substitutes and complements)。这些概念已经被一些推荐系统所采用[28,44]。在电子商务推荐应用中,在用户做出购买决定之前,可能更倾向于选择备选产品的替代者(相似推荐),而在用户购买之后,可能会选择补充产品(相关推荐)。

综上所述,在我们之前的许多研究者已经研究过如何提高推荐和搜索结果的多样性。一些研究人员同时处理这些多样性的概念。例如,Vargas等人的[39]解决了覆盖和冗余,以及推荐列表的大小。我们感兴趣的是在大规模推荐系统中可以很好地工作,每天可以为数亿用户提供服务的技术。多样性的概念应该足够灵活,可以随着时间的推移而演变。因此,我们选择不采用分类或主题覆盖的方法,因为它们需要一些多样性的复杂表示(例如,对用户的意图或主题覆盖的明确猜测)。
相反,我们提出了一种使用行列式点过程(DPPs)的方法[4,7,13,22]。DPP是一种集态的推荐模型,它只需要两个明确而自然的元素:每个item对用户来说有多好,以及每对item有多相似。因此,我们的重点是消除冗余。

3 BACKGROUND(背景)

3.1 YouTube Homepage Feed Overview and the Need for Diversification(YouTube主页feed和多样性需求)

在用户的YouTube移动主页feed上生成视频推荐的系统的总体结构如图1所示。该系统由三个阶段组成:(1)候选生成,其中feed项从大型物料中选择;(2)排序,对feed项进行排序;(3)策略,强制执行业务需求,例如要求某些内容出现在页面的特定位置。阶段(1)和(2)都大量使用了深度神经网络[9]。
Figure 1: The basic serving scheme.
候选生成在很大程度上是由用户在我们的系统上的先前行为决定的,并以相对简单的计算方法来衡量item在多大程度上匹配用户兴趣。例如,共同效用是使用的一种度量方法:如果一个用户喜欢视频a,而许多其他喜欢a的用户也喜欢B,那么B可能在候选生成阶段被选中。排名阶段也大量使用了用户特性,但还依赖于更丰富的item特征(如将视频嵌入到某些语义空间中)。正如人们可能预期的那样,排名阶段往往给类似的视频类似的效用预测,导致feed有重复的内容,而且经常运行非常相似的视频。
为了减轻冗余问题,首先,我们在策略层引入了启发式规则,例如要求单个上传者向任何用户feed提供的项不能超过n个(作者打散)。虽然这条规则有点有效,但根据我们的经验,它与底层推荐系统的交互非常糟糕。由于候选生成层和排序层没有意识到这种启发式规则,它们在永远不会出现的项上浪费空间来进行次优预测。此外,随着前两层随着时间的推移而演变,我们需要重复地调整启发式的参数——这是一项代价极高的任务,因此在实践中并不会高频地修改规则。最后,多种类型的启发法之间的相互作用在实践中产生了一种很难理解的推荐算法。其结果是一个次优的系统,很难进化。

3.2 Definitions(问题定义)

更准确地说,让我们表示观察用户的交互项在给定feed转换成一个二进制向量y,(例如,y =[0, 1, 0, 1, 1, 0, 0, . . .]),据了解,用户通常不会看整个feed,而是从编号较低的索引开始。我们目前的目标是最大限度的提升交互数:

\[\begin{aligned} G^{\prime}=\sum_{u \sim \text { Users }} \sum_{i \sim \text { Items }} y_{u i}\\ &(1) \end{aligned} \]

为了从以前的交互记录中训练模型,我们尝试选择模型的参数,通过重拍feed列表来最大化累积增益:

\[\begin{aligned} &G=\sum_{u \sim U \operatorname{sers}} \sum_{i \sim \text { Items }} \frac{y_{u i}}{j}\\ &(2) \end{aligned} \]

其中j为模型赋予某一项的新排名。这数量随着我们对互动的排名提高而增加。(在实践中,我们最小化\(jy_{ui}\)而不是最大化\(\frac{y_{ui}}{j}\),但是这两个表达式具有相同的条件(optima)。在接下来的讨论中,为了简单起见,我们将去掉u下标,尽管应该假设所有值在每个用户的基础上都是不同的(个性化的)。
让我们进一步假设我们提供了一些关于y的质量的黑盒估计:

\[\begin{aligned} q_{i} \approx \mathrm{P}\left(y_{i}=1 | \text { features of item } i\right)\\ &(3) \end{aligned} \]

明显的排序策略是根据q对item进行排序。请注意,$q_i$只是单个item的函数。如果有许多相似的条目,它们的$q_i$值相似,那么它们将被排列在一起,这可能会导致用户放弃feed。考虑到我们的最终目标是最大化feed的总效用,我们在以下情况下称两个item相似:

\[\begin{aligned} \mathrm{P}\left(y_{i}=1, y_{j}=1\right)<\mathrm{P}\left(y_{i}=1\right) \mathrm{P}\left(y_{j}=1\right)\\ &(4) \end{aligned} \]

换句话说,它们在一起呈现时呈负相关——其中一个是多余的。如果feed中有相似的项,那么按q排序就不再是最佳策略。让我们进一步假设我们有黑盒item距离公式:

\[\begin{aligned} \left.D_{i j}=\text { distance (item } i, \text { item } j\right) \in[0, \infty)\\ &(5) \end{aligned} \]

这些距离被认为是“未校准的”,因为它们不需要与公式4直接相关。例如,如果讨论的项目是报纸文章,那么D可以是每篇文章中标记词的Jaccard距离。现在的目标是生成一个基于q、D和y的排序策略,它比简单地根据q排序获得更小的G值。理想情况下,可以通过与现有基础设施很好地集成和演进的方式来实现。

Figure2

3.3 Design Desiderata(设计)

如果数据集中存在项目相似性(如公式4中定义的那样),并且数据集非常大,那么我们的目标可以通过各种不同的方法来实现。我们倾向于以下方法:
(1)完全适配可观测物理事件的机器学习预测器的现有逻辑框架,
(2)随着时间的推移,可以优雅地扩展
(3)在不需要对现有系统和专业知识进行重大更改的情况下使用
启发式可能是有效的[45],但不是理想的。举个例子,想象在一个由n个item相邻构成的窗口下执行上述规则,而不是两个项目可能Dij < τ。将会产生如下一系列问题:
(1)该规则独立于q进行操作,即在与低得分项目相同的条件下,对得分高的项目降级。在应用该策略后,对q的准确性的独立改进可能会丢失。
(2)参数n和τ是通过暴力网格搜索找到的,但复杂度较高,训练时间将随参数的数量呈现指数级增长。
(3)除了以某种方式整合q之外,如何将规则扩展到随着时间的推移进行增量改进,这一点并不十分明显。
(4)不能作为生成模型创建用于离线验证的合成数据集。
重要的一点是,这种启发式隐含地将冗余问题视为与效用最大化完全不同的目标。事实上,它假设提高多样性可能会降低效用(至少在短期内),因为它扔掉了q值较高的物品。相反,我们提出的方法考虑item对的效用(通过公式4中描述的反相关),因此能够使用效用本身来更好地证明降低某些item的价值。
当然,可以定义基于反相关的启发式方法,例如“如果p低于\(\frac{P\left(y_{i}=1, y_{j}=1\right)}{P\left(y_{i}=1\right) P\left(y_{j}=1\right)}\),则不允许在同一feed中包含两个item”。然而,如上所述,该规则不考虑q,需要频繁地重新调优参数x,即使使用常规调优,也不足以准确地捕获我们希望的行为。因此,我们将DPPs作为一种更有原则的多样化建议引入到系统中,以取代这种启发式规则。
我们将dpp插入到策略层之前,点得分层(the point-wise scoring layer)之后插入(参见图2)。这样我们即可以利用一个非常复杂的点得分器,也同时确保业务策略。

4 METHOD(方法)

4.1 DPP Overview(DPP概览)

我们从行列式点过程(DPPs)的高级概述开始。集合S上的点进程P ={1,2,…,N}(例如,用户的YouTube移动主页feed中的N个视频集合)是S的powerset(S的所有子集合的集合)上的概率分布。也就是说, \(\forall S \subseteq \\S, \mathscr{P}\)是对应集合的概率,且有\(\sum_{S \subseteq \mathbb{S}} \mathcal{P}(S)=1\)dpp代表一组概率分布,其参数可以被调优,从而综合平衡S中item的质量分和这些item的多样性的的占比。因此,找到集合\(\max_{S:|S|=k} \mathcal{P}(S)\)是一种(等价于)从更大的N个item池中选择高质量和多样化的k个项目子集的方法。
如第2节所述,有许多兼顾项目质量和多样性的合理措施,如最大边际相关性(MMR)方法[5]。使用DPP的优势有两方面:1)DPP可以在推荐任务[20]上胜过MMR等度量,2)DPP是一个概率模型。后一点意味着我们可以利用算法进行概率操作,如最大后验、条件和抽样(marginalization, conditioning, and sampling)。这些操作的可用性很好地符合我们的目标,即构建一个可以随时间适当地扩展复杂性的系统。
我们现在描述如何使用DPP来建模用户行为。回想一下,对于有N个条目的提要,长度为N的二进制向量y表示用户与提要中的哪些视频进行了交互。设Y表示这些项的索引集(例如Y =[0,1,0,0,1,1],其指示Y ={2,5,6})。然后,我们假设用户u的行为由一个DPP建模,该DPP的概率分布为P,具体如下:\(Y \sim \mathcal{P}_{u}\)。也就是说,与Y交互的一组视频,表示由用户指定的DPP(user-specifc DPP)决定的概率分布。
尽管DPP是在一个指数数集的概率分布(共有\(2^N\)个子集S = {1,2,…, N}),它可以简洁地由一个N×N半正定(positive semi-definite)内核参数化矩阵[4],我们将称之为L。更具体地说,DPP的概率可以写成L子矩阵的行列式:

半正定(positive semi-definite)矩阵的定义,证明和应用

\[\begin{aligned} &\mathcal{P}(Y)=\frac{\operatorname{det}\left(L_{Y}\right)}{\sum_{Y^{\prime} \subseteq \mathbb{S}} \operatorname{det}\left(L_{Y^{\prime}}\right)}&(6) \end{aligned} \]

$L_Y$是L的行和列索引值只取自于集合Y(例如,集合Y={2、5、6},则$L_Y$为一个大小为3×3的方阵)。注意,方程6中的分母归一化项(normalizing term),用于不同的的行列式,它实际上可以被重写为一个单独的行列式:

\[\begin{aligned} &\sum_{Y \subseteq S} \operatorname{det}\left(L_{Y}\right)=\operatorname{det}(L+I)&(7) \end{aligned} \]

其中I是单位矩阵(identity matrix)。
看下$det(L_Y)$是怎样综合衡量一组item的质量和多样性的,将下面的项合在一起有助于理解完整的矩阵L:1)对角线项$L_{ii}$是一个item的质量的测量;2)一个非对角元素$L_{ij}$是item i和j之间的相似度的度量。根据这些直觉,让我们考虑|Y|=2的情况。如果Y={1,2},则:

case2
这个子矩阵的行列式是:\(det(L_Y) = L_{11}L_{22}−L_{12}L_{21}\)。所以,它是物品质量减去物品相似度的乘积。对于更大的次矩阵,行列式的表达式更复杂,但是类似的直觉也适用于此。
在接下来的章节中,我们将讨论从现成的系统输入中构造L的各种方法,例如3.2节中描述的点态项目质量分数q。

疑问:质量分和相似度虽然都是归一化的,但是如果\(L_{11}<L_{12}\)\(L_{22}<L_{21}\),那么行列式为负,不符合半正定的充要条件:A是半正定的<=>A的所有主子式均为非负的。
划重点,4.1节证明了L的行列式为什么可以综合衡量item的质量分和多样性

4.2 Kernel Parameterization(核参数化)

在我们当前的部署中,如图2所示,多样化在管道(pipeline)中发生得相当晚,因此典型的输入集大小是N=100。这些视频有两个主要输入特点:个性化的质量分q和视频的稀疏嵌入φ。这些特征是由完全独立的子系统产生的。通过将我们的多样性系统叠加在它们之上,我们可以继续受益于这些子系统的不断改进。
为了将DPP引入我们的系统,我们首先使用了一个相对简单的参数化N×N DPP核矩阵L:

\[\begin{aligned} L_{i i}=q_{i}^{2}\\ &(9) \end{aligned} \]

\[\begin{aligned} L_{i j}=\alpha q_{i} q_{j} \exp \left(-\frac{D_{i j}}{2 \sigma^{2}}\right), \text { for } i \neq j \\ &(10) \end{aligned} \]

每个\(D_{ij}\)由φi,φj计算所得;第五节会描述我们在实践中发现效果最好的嵌入函数φ和距离函数。α和σ自由变量。注意当α=1时,这个方程等价于标准(高斯)径向基函数(RBF)内核;α∈(0,1)时,矩阵的上下三角的值越小;item集合更多样化;α>1时,对角矩阵的值越大,所有item越相似。随着α的增长,小集的概率增加而大集合的概率减小。因此,一个大的α适用于在一个推荐列表feed中只有相对较小的视频子集被交互过(也就是说|Y|很小)。
使用一个大的α对我们来说是有价值的,因为,正如我们在4.3节中看到的,它可以更好的拟合用户数据。然而,有一个技术问题,允许α>1。从公式6中可以看出,为了得到一个合适的DPP,核矩阵L必须是正半定的(PSD)。PSD条件确保L的所有子矩阵的行列式都是非负的。这很重要,因为集合Y的概率与det(LY)成比例,负的“概率”没有意义。如果我们允许α>1,这有可能使L非半正定。在实践中,我们解决这个问题通过简单地将任何由较大的α值产生的非半正定矩阵映射到PSD矩阵的空间。(投影很简单:我们计算L的特征分解并用0代替任何负的特征值。)

4.3 Training Approach(训练方法)

我们的训练集包含了从YouTube移动主页上收集的一天数据中抽取的大约4万个样本。每个训练样本都是一个用户的主页feed曝光:一个用户访问YouTube移动主页,并显示一个有序的推荐视频列表。对于每一个这样的曝光,我们都有一个用户喜欢哪些视频的记录,这些记录构成了集合Y。我们注意到,从这些数据中训练模型存在部分label偏差,因为我们只观察用户与我们过去选择的视频的互动,而不是与随机选择的视频的互动。通常,我们使用已经应用在过去的训练点态模型训练中的相同方式解决这个问题,比如使用一个ε贪婪的探索策略。
在前一节中描述的基本内核只有两个参数,α和σ,所以我们可以简单的做一个网格搜索的值的累积的收益最大化(公式2)。图3显示了累积获得获得各种选择的α,σ。颜色越深,效果越差。有趣的是,人们可以观察到右上象限的灾难性悬崖,以及随后的高原。这与用于训练示例的DPP内核变得越来越非PSD有关。回想一下,随着α和L的非对角的增长,L会越来越non-PSD。大的α和σ组合会导致许多训练样本的non-PSD矩阵。那么,从直觉上看,似乎整个图的右上角应该具有较低的累积增益值,而不是较低的值集中在观察到的频带中。但是,也要记住,我们将任何非PSD矩阵投射回PSD空间。对于α和σ而言,投射不是线性的;所以投影后的矩阵质量不能指望必然相关于与我们对这些参数的直觉。总的来说,我们发现,最高累积收益是在中档的σ和上半部分的范围的α获得的。这些参数生成的L内核大部分是PSD,因此只有偶尔训练示例的内核需要投射。

Figure3

4.4 Deep Gramian Kernels(深度格拉姆核矩阵)

正如前面所讨论的,与启发式相比,使用dpp的主要优势之一是,dpp允许我们构建一个随时间适当扩展复杂性的系统。我们认为启发式算法的复杂性很难衡量,因为要调整它,我们必须对其参数进行网格搜索,因此训练启发式算法的运行时间是参数数量的指数。在本节中,我们将讨论如何使用DPPs来超越网格搜索,从而有效地训练具有多个参数的模型。
有大量的工作是关于以各种方式参数化的DPP核矩阵的学习[3,12,14,20,21,26,27]。这类工作通常寻求最大化训练数据的对数似然。更具体地说,假设:

  • L的参数是某些长度为r的向量w,和
  • 我们有M个训练样本,每一个都包括:1)N个item的集合,2)用户交互过的这些item的子集Y

设L(w)为参数w归纳的N×N核矩阵,则训练数据的对数似然为:

\[\begin{aligned} \operatorname{LogLike}(w)=\sum_{j=1}^{M} \log \left(\mathcal{P}_{L(w)} \left(Y_j\right)\right) \\ &(11) \end{aligned} \]

\[\begin{aligned} =\sum_{j=1}^{M}\left[\log(\operatorname{det} (L(w){Y_{j}}))- \log (\operatorname{det}(L(w)+I))\right] &(12) \end{aligned} \]

其中\(Y_j\)是用户与之交互的训练示例j项的子集。使用对数似然作为目标函数允许我们使用比网格搜索更复杂(和更有效)的方法来学习DPP参数。
在前一节中,我们已经通过LogLike上使用梯度下降开始探索学习更多的内核参数,不仅参数α和σ。我们仍然使用输入的φ嵌入的视频内容表达。对于个性化的视频质量分数,而不是一个标量分数\(q_i\),我们能够从现有的基础设施中得到整个质量分数\(q_i\)的向量,因此我们使用这个向量使我们的模型更通用。(\(q_i\)的每个条目都捕捉到了一些可能会让用户觉得视频不错的方面。)完整的内核L(φ,q),我们从这个输入数据可以表示为以下方式:

\[\begin{aligned} L_{ij}=f(q_i)g(\phi_i)^{T} g(\phi_j) f(q_j)+\delta \mathbb{1}_{i=j} \\ &(13) \end{aligned} \]

其中f和g是神经网络中独立的部分(stacks)。(δ是一个简单的正则化参数,我们现在固定在一个小的值上。)注意量\(f(q_i)\)是一个标量,而g(φi)是一个矢量。

计算f的神经网络相对较浅,而g的网络更深,φ被重新嵌入(re-embeds)在一个能更好地描述相关视频效用的空间中(见图4)。我们也注意到,与前面讨论的基本内核参数不同,大型的α值可能导致非正定的L,实际上更复杂的参数化总是保证产生PSD不需要投影矩阵。这是因为L的这种特殊构造使它成为一个格莱姆矩阵,所有这些矩阵都是PSD。

这里需要扩展格莱姆矩阵方面的概念

Figure4

为了学习计算f和g的神经网络的所有参数,我们使用Tensorfow[1]对方程11的LogLike进行优化。由此产生的深度DPP模型已经在实际实验中显示出了效用改进(参见表1中的深度DPP条目)。然而,这些深度模型将排名改变从非多样化的基线,以至于次要业务指标开始受到明显影响,需要进行额外的调优。

Table1

4.5 Efficient Ranking Algorithm with DPP(高效的DPP排序算法)

在本节中,我们将描述如何在serving期间使用第4.3节或第4.4节中所述的DPP参数。也就是说,当用户访问YouTube移动主页时,DPP如何决定哪些视频会出现在他们推荐的feed顶部?对于任何给定的用户,YouTube的底层部分系统基础设施给DPP层系统为一组N个视频的个性化的质量分数q和视频嵌入向量φ。我们根据这些分数和嵌入以及前面部分描述的学习参数来构造一个DPP内核L。然后我们确定一些窗口大小
k ≪ N,并要求DPP提供一组k个高概率视频。我们把这些视频放在feed的顶部,然后再次要求DPP从剩余的N-k个未使用的视频中获取k个高概率视频集。这些视频将成为feed中下一批k个视频。我们重复这个过程,直到我们有N个视频的整个feed。
用步长k构建数据子窗口背后的思想是,两个相似项之间的斥力随着它们之间在feed中的距离的增加而减小。也就是说,让视频1和视频100相似并不像让视频1和视频2相似那样对用户体验(enjoyment)不利。在实践中,对于N是数百个视频的feed,我们使用子窗口,其中k是十几个视频。
当我们“要求DPP提供一个包含k个视频的高概率集合”时,我们实际上是在要求大小为k的集合Y,它具有最高的用户与这k个条目交互的概率。这相当于下面的最大化问题:

\[\begin{aligned} \max_{Y:|Y|=k} \operatorname{det}(L_Y) \\ &(14) \end{aligned} \]

1 我们可以考虑替代的数量,比如用户在给定子集中至少与一个项目交互的概率。我们计划在今后的工作中考虑这种替代方案。

如[18]所示,这种最大化是NP-hard。然而,在实践中,一个标准的贪婪算法从[31]的子模块最大化可以近似解决这个问题。贪婪算法从Y =∅(空集)开始,进行k次迭代,每次迭代增加1个视频到Y。迭代i中选择的视频是视频v,当视频v加入当前选择的集合时,产生最大的行列式值:

\[\begin{aligned} &\max_{v \in \text{ remaining videos }} \operatorname{det}(L_{Y \cup v})\\ &(15) \end{aligned} \]

除了简单之外,使用这种贪婪算法的另一个好处是,如果我们跟踪贪婪选择视频的顺序,那么这就为我们提供了一个k窗口中视频之间的自然顺序。
算法1总结了本节描述的排序算法。正如我们将在后面的部分中看到的,这个排名帮助用户更容易地找到他们想要消费的内容。

ALGO1

5 EXPERIMENTAL RESULTS(实验结果)

首先,我们将描述一些基本的比较基线。在最终到达DPPs之前,我们尝试了三种不同的启发式方法:
(1)模糊去重:禁止任何视频i距离视频j低于一个阈值τ:Dij<τ。
(2)滑动窗口:每m个item允许最多n个小于距离阈值τ。
(3)平滑分数惩罚:在选择位置n + 1的视频v时,重新调整质量分数,考虑到已经选择的视频1到n的相似性:

\[\begin{aligned} q_{\mathrm{new}, v}=q_{\text {original, } v} * e^{-b\left(\phi_{v} \cdot \phi_{\text {previous }}\right)}\\ &(15) \end{aligned} \]

\[\begin{aligned} &\text { with } \phi_{\text {previous }}=\sum_{k=0}^{n} a^{n-k-1} \phi_{k}\\ &(16) \end{aligned} \]

其中q是排序得到的质量得分,a和b是自由参数,φ是嵌入向量。
如表1所示,所有这些尝试都导致了一个不太有用的移动主页feed,这是通过从主页发起长会话的用户数量来衡量的。
在使用dpp进行实验时,我们首先使用了4.2节中描述的内核L,并评估了各种嵌入和距离函数(密集和稀疏音频嵌入、帧嵌入、缩略图嵌入、文档文本嵌入等)。我们发现,对方程10的\(D_{ij}\)使用Jaccard距离,token组成的稀疏向量φ((例如,视频《Olive Gar- den - snl》就有token “snl”、“Olive garden”、“Saturday Night”、“Night Live”和“sketch”等)。在YouTube的移动主页上进行的线上实验显示,我们的用户体验得到了极大的改善。除了表1中所示的满意用户数指标的+0.63%,我们还看到了总观看时间的+0.52%,这是一个非常显著的飞跃。由于在移动设备上的成功,通过DPPs进行的通信已经部署到所有的媒体(surfaces),包括电视、桌面和实时流媒体。(请注意,虽然deep Gramian DPPs系统在“满意的主页观察者”指标上看起来很有前途,但它尚未部署。正如前面提到的,这些更深层次的模型极大地改变了从单一的基线到次要业务指标开始受到显著影响的排序,需要额外的调优)。
有趣的是,对于一些参数的选择,我们在主页上的直接交互中看到了损失,尽管我们在整个站点上获得了全面的胜利。图5显示了来自主页的查看时间增加的百分比。这表明用户发现内容非常有吸引力,这会导致从主页开始的更长的会话。事实上,我们确实观察增加活动相关视频面板(一组视频看到在视频播放当前),点击率,观点,和总视图的时间,尽管我们最初的改变只检查视频显示在主页feed。累积起来,它表明用户发现了更多他们喜欢的视频。
Figure5
Figure6
此外,我们已经能够观察到一个长期的“学习效果”[17]多样化个性化的feed。也就是说,随着时间的推移,多样化会让用户更多再次访问使用我们的服务。我们通过进行两组长期holdback实验来测量这种效应。在第一个控制条件中,用户没有得到dpp多样化的feed,但是用户群体的子集每天都在变化(这些用户通常会接触到各种各样的feed,除非在极少数情况下,他们最终会进入这个实验组)。在第二个保留条件中,一组一致的用户看不到dpp多样化的feed。然后,我们可以通过观察两个保留与各自的对照组相比的差异来观察DPP差异是否会导致用户体验的长期改善。从图6中我们可以看到,相对于这两个停滞不前的组,观看至少一个来自主页的视频的用户数量有所增加,接触过各种提要的用户通常意识到他们可以在YouTube的主页上找到感兴趣的视频。因此,我们可以说,多样化的内容可以在短期内提高用户的满意度,而且随着时间的推移,这种效果会越来越明显。

注2 holdback是一组A/B实验,其中B组的用户不收到改动。

6 CONCLUSIONS AND FUTURE WORK(总结和展望)

研究人员早在十多年前就认识到,多样性是推荐系统和信息检索的一个重要问题。重要的研究工作已经投入到使用分类或基于分类的方法,通常与各种启发式相结合。与此相反,我们提出了一种基于行列式点过程的方法。我们的方法直接优化推荐系统列表。由于这种方法很自然地将问题分解为两个方面:一是评估item质量,二是评估成对item之间的排斥性影响,因此我们的堆叠架构允许我们利用现有的复杂架构来进行点态评分和item分析。
在本文中,我们讨论了DPPs在大规模视频推荐系统中的应用挑战。我们考虑了DPP内核的几个参数化以及计算内核参数值的学习方法,这些参数来自于用户与视频的积极交互。最后,我们展示了在这个大型系统上的实时实验结果,显示了用户效用的短期提升和长期效果——用户更频繁地使用YouTube来满足他们的需求。
我们的工作并非没有限制。首先,我们训练的DPP是非个性化的,其参数,比如σ,从大量的用户数据学习,而不是从单个用户的数据。在不久的将来,我们希望开发新的方法来了解每个用户的短期和长期的多样性需求。我们也不完全了解不同的领域或类型如何影响多样化政策。例如,用户可能更喜欢音乐视频保持在一定的范围内(比如没有声音),因为他们可能更被动地享受音乐视频,而喜剧等类型可能需要更多的多样性。此外,我们没有一个考虑时间的好模型,比如理解工作日和周末的多样性偏好。本研究旨在探讨分散控制方法与强化学习之间的关系,以提供一种良好的分散控制策略。考虑到未来工作的多种方向,我们认为我们目前的工作只是“触及了表面”,即通过远离推荐系统中的点估计器来改善用户体验的可能性。

REFERENCES(引用)

[1] Martín Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen,Craig Citro, Greg S. Corrado, Andy Davis, Je rey Dean, Matthieu Devin, San-jay Ghemawat, Ian Goodfellow, Andrew Harp, Geo rey Irving, Michael Isard,Yangqing Jia, Rafal Jozefowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Leven-berg, Dan Mané, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Viégas, Oriol Vinyals,Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng.2015. TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems.(2015). http://tensorflow.org/ Software available from tensorflow.org.

[2] Rakesh Agrawal, Sreenivas Gollapudi, Alan Halverson, and Samuel Ieong. 2009.Diversifying Search Results. In Conference on Web Search and Data Mining
(WSDM). http://doi.acm.org/10.1145/1498759.1498766

[3] R. Bardenet and M. Titsias. 2015. Inference for Determinantal Point Processes Without Spectral Knowledge. In Neural Information Processing Systems (NIPS).

[4] A. Borodin. 2009. Determinantal point processes. ArXiv e-prints (2009). https://arxiv.org/abs/0911.1153

[5] Jaime Carbonell and Jade Goldstein. 1998. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries. In Conference
on Research and Development in Information Retreival (SIGIR). http://doi.acm.org/10.1145/290941.291025

[6] Olivier Chapelle, Shihao Ji, Ciya Liao, Emre Velipasaoglu, Larry Lai, and Su-Lin Wu. 2011. Intent-based Diversi cation of Web Search Results: Metrics and
Algorithms. Information Retrieval 14, 6 (2011), 572–592. http://dx.doi.org/10.1007/s10791-011-9167-7

[7] Laming Chen, Guoxin Zhang, and Hanning Zhou. 2017. Improving the Diver-sity of Top-N Recommendation via Determinantal Point Process. In Large Scale
Recommendation Systems Workshop at the Conference on Recommender Systems(RecSys). http://arxiv.org/abs/1709.05135

[8] Charles L.A. Clarke, Maheedhar Kolla, Gordon V. Cormack, Olga Vechtomova,Azin Ashkan, Stefan Büttcher, and Ian MacKinnon. 2008. Novelty and Diversity
in Information Retrieval Evaluation. In Conference on Research and Development inInformation Retreival(SIGIR). http://doi.acm.org/10.1145/1390334.1390446

[9] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep Neural Networks for YouTube Recommendations. In Conference on Recommender Systems (RecSys).

[10] Van Dang and W. Bruce Croft. 2012. Diversity by Proportionality: An Election-based Approach to Search Result Diversi cation. In Conference on Research and Development in Information Retreival (SIGIR). http://doi.acm.org/10.1145/2348283.2348296

[11] Marina Drosou and Evaggelia Pitoura. 2010. Search Result Diversi cation. SIG-MOD Record 39, 1 (2010), 41–47. http://doi.acm.org/10.1145/1860702.1860709

[12] Mike Gartrell, Ulrich Paquet, and Noam Koenigstein. 2016. Bayesian Low-Rank Determinantal Point Processes. In Conference on Recommender Systems (RecSys).

[13] J. Gillenwater. 2014. Approximate Inference for Determinantal Point Processes.Ph.D. Dissertation. University of Pennsylvania.

[14] J. Gillenwater, A. Kulesza, E. Fox, and B. Taskar. 2014. Expectation-Maximization for Learning Determinantal Point Processes. In Neural Information Processing Systems (NIPS).

[15] Sreenivas Gollapudi and Aneesh Sharma. 2009. An Axiomatic Approach for Result Diversi cation. In Conference on the World Wide Web (WWW). http://doi.acm.org/10.1145/1526709.1526761

[16] Yoshinori Hijikata, Takuya Shimizu, and Shogo Nishida. 2009. Discovery-oriented Collaborative Filtering for Improving User Satisfaction. In Conference on Intelli-gent User Interfaces (IUI). http://doi.acm.org/10.1145/1502650.1502663

[17] Henning Hohnhold, Deirdre O’Brien, and Diane Tang. 2015. Focus on the Long-Term: It’s better for Users and Business. In Conference on Knowledge Discovery and Data Mining (KDD). http://dl.acm.org/citation.cfm?doid=2783258.2788583

[18] Chun-Wa Ko, Jon Lee, and Maurice Queyranne. 1995. An Exact Algorithm for Maximum Entropy Sampling. Operations Research 43, 4 (1995), 684–691.
http://www.jstor.org/stable/171694

[19] Yehuda Koren, Robert Bell, and Chris Volinsky. 2009. Matrix Factorization Techniques for Recommender Systems. Computer 42, 8 (2009), 30–37. http://dx.doi.org/10.1109/MC.2009.263

[20] Alex Kulesza and Ben Taskar. 2011. k-DPPs: Fixed-Size Determinantal Point Processes. In International Conference on Machine Learning (ICML).

[21] Alex Kulesza and Ben Taskar. 2011. Learning Determinantal Point Processes. In Conference on Uncertainty in Arti cial Intelligence (UAI).

[22] Alex Kulesza and Ben Taskar. 2012. Determinantal Point Processes for Machine Learning. Foundations and Trends in Machine Learning 5, 2-3 (2012), 123–286. http://dx.doi.org/10.1561/2200000044

[23] YoungOk Kwon and Gediminas Adomavicius. 2007. New Recommendation Techniques for Multicriteria Rating Systems. IEEE Intelligent Systems 22 (2007),48–55.

[24] Neal Lathia, Stephen Hailes, Licia Capra, and Xavier Amatriain. 2010. Temporal Diversity in Recommender Systems. In Conference on Research and Development inInformationRetreival(SIGIR). http://doi.acm.org/10.1145/1835449.1835486

[25] Hui Lin and Je Bilmes. 2011. A Class of Submodular Functions for Document Summarization. In Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (HLT). http://dl.acm.org/citation.cfm?id=2002472.2002537

[26] Zelda Mariet and Suvrit Sra. 2015. Fixed-Point Algorithms for Learning Determinatal Point Processes. In International Conference on Machine Learning (ICML).

[27] Zelda Mariet and Suvrit Sra. 2016. Kronecker Determinantal Point Processes. In Neural Information Processing Systems (NIPS).

[28] Julian McAuley, Rahul Pandey, and Jure Leskovec. 2015. Inferring Networks of Substitutable and Complementary Products. In Conference on Knowledge Discov-
ery and Data Mining (KDD). http://doi.acm.org/10.1145/2783258.2783381

[29] Sean M. McNee, John Riedl, and Joseph A. Konstan. 2006. Being Accurate is Not Enough: How Accuracy Metrics Have Hurt Recommender Systems. In CHI
Extended Abstracts on Human Factors in Computing Systems. http://doi.acm.org/10.1145/1125451.1125659

[30] H. Nassif, K.O. Cansizlar, M. Goodman, and S.V.N. Vishwanathan. 2016. Diversifying Music Recommendations. In International Conference on Machine Learning
(ICML) Workshop.

[31] G. Nemhauser, L. Wolsey, and M. Fisher. 1978. An Analysis of Approximations for Maximizing Submodular Set Functions I. Mathematical Programming 14 (1978),265–294.

[32] Yonathan Perez, Michael Schueppert, Matthew Lawlor, and Shaunak Kishore.2015. Category-Driven Approach for Local Related Business Recommendations.
In Conference on Information and Knowledge Management (CIKM). 73–82. http://dl.acm.org/citation.cfm?doid=2806416.2806495

[33] Davood Ra ei, Krishna Bharat, and Anand Shukla. 2010. Diversifying Web Search Results. In Conference on the World Wide Web (WWW).
http://doi.acm.org/10.1145/1772690.1772770

[34] Paul Resnick, Neophytos Iacovou, Mitesh Suchak, Peter Bergstrom, and JohnRiedl. 1994. GroupLens: An Open Architecture for Collaborative Filtering of
Netnews. In Conference on Computer Supported Cooperative Work (CSCW). http://doi.acm.org/10.1145/192844.192905

[35] Rodrygo L.T. Santos, Craig Macdonald, and Iadh Ounis. 2010. Exploiting Query Reformulations for Web Search Result Diversi cation. In Conference on the World Wide Web (WWW). http://doi.acm.org/10.1145/1772690.1772780

[36] Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl. 2001. Item-based Collaborative Filtering Recommendation Algorithms. In Conference on the World Wide Web (WWW). http://doi.acm.org/10.1145/371920.372071

[37] Choon Hui Teo, Houssam Nassif, Daniel Hill, Sriram Srinivasan, Mitchell Good-man, Vijai Mohan, and S.V.N. Vishwanathan. 2016. Adaptive, Personalized Di-
versity for Visual Discovery. In Conference on Recommender Systems (RecSys).http://doi.acm.org/10.1145/2959100.2959171

[38] Sebastian Tschiatschek, Adish Singla, and Andreas Krause. 2017. Selecting Sequences of Items via Submodular Maximization. In Conference on Arti cial Intel-ligence (AAAI).

[39] Saúl Vargas, Linas Baltrunas, Alexandros Karatzoglou, and Pablo Castells. 2014.Coverage, Redundancy and Size-awareness in Genre Diversity for Recommender
Systems. In Conference on Recommender Systems (RecSys). http://doi.acm.org/10.1145/2645710.2645743

[40] Erik Vee, Utkarsh Srivastava, Jayavel Shanmugasundaram, Prashant Bhat, and Sihem Amer Yahia. 2008. E cient Computation of Diverse Query Results. In
International Conference on Data Engineering (ICDE). http://dx.doi.org/10.1109/ICDE.2008.4497431

[41] Cong Yu, Laks Lakshmanan, and Sihem Amer-Yahia. 2009. It Takes Variety to Make a World: Diversi cation in Recommender Systems. In Conference on
Extending Database Technology (EDBT). http://doi.acm.org/10.1145/1516360.1516404

[42] Cheng Xiang Zhai, William W. Cohen, and John La erty. 2003. Beyond Independent Relevance: Methods and Evaluation Metrics for Subtopic Retrieval.
In Conference on Research and Development in Information Retreival (SIGIR). http://doi.acm.org/10.1145/860435.860440

[43] Mi Zhang and Neil Hurley. 2008. Avoiding Monotony: Improving the Diversity of Recommendation Lists. In Conference on Recommender Systems (RecSys).
http://doi.acm.org/10.1145/1454008.1454030

[44] Jiaqian Zheng, Xiaoyuan Wu, Junyu Niu, and Alvaro Bolivar. 2009. Substitutes or Complements: Another Step Forward in Recommendations. In Conference on
Electronic Commerce (EC). http://doi.acm.org/10.1145/1566374.1566394

[45] Cai-Nicolas Ziegler, Sean M. McNee, Joseph A. Konstan, and Georg Lausen. 2005. Improving Recommendation Lists Through Topic Diversi cation. In Conference on the World Wide Web (WWW).http://doi.acm.org/10.1145/1060745.1060754

posted @ 2020-01-15 17:06  混沌战神阿瑞斯  阅读(2716)  评论(1编辑  收藏  举报