超图技术提升商品检索效能的突破

使用超图改进商品检索

在帮助顾客于某中心商店查找商品的信息检索引擎中,通常依赖于将查询与商品映射的二分图。这些图通常基于顾客行为:若执行相同查询的足够多顾客点击或购买某商品,图中便会建立查询与商品之间的边。图神经网络(GNN)可处理该图并预测新查询对应的边。

该方法存在两个缺陷:一是商店中大多数商品属于很少被搜索的长尾项目,缺乏足够关联数据以确保GNN训练可靠性;二是处理长尾查询时,GNN易将其匹配到流行但可能无关的商品,仅因后者整体点击购买率高,此现象称为非协调混合。

在ACM网络搜索与数据挖掘会议(WSDM)上发表的论文中,通过用描述同一购物会话中顾客浏览商品的超图增强二分图,解决了这两个问题。利用超图捕捉商品关系可帮助GNN从高频查询泛化至低频查询。超图是图结构的泛化,其中一边可连接多个节点,而普通图一边仅连接两节点。其他检索方法虽使用商品相似性提升性能,但用超图建模相似性允许使用GNN进行预测,从而利用图表示中的附加结构。

测试中,将该方法与仅使用二分图的GNN方法比较,发现添加超图使结果的平均倒数排名(衡量正确答案在排名列表中位置的指标)提升近25%,召回率(衡量检索正确答案的百分比)提高超48%。

双通道架构

GNN生成捕获邻居信息的节点向量表示(嵌入)。该过程迭代进行:第一次嵌入仅捕获节点关联对象信息(如商品描述或查询语义);第二次嵌入结合节点直接邻居的嵌入;第三次嵌入扩展节点邻域一跳,以此类推。多数应用使用一跳或两跳嵌入。

超图嵌入略微修改此过程:第一次迭代与标准情况相同,单独嵌入各项目节点;第二次迭代为每个超边整体创建嵌入;第三次迭代生成每个节点的嵌入,综合考虑其自身内容级嵌入及所接触所有超边的嵌入。

该模型架构具双通道:一用于查询-商品二分图,一用于商品-商品超图。各通道传递至其自身GNN(图卷积网络),产生每个节点的嵌入。

训练期间,注意力机制学习赋予各通道嵌入多少权重。例如,具有少数流行关联商品的常见查询可能通过二分图的标准GNN嵌入良好表示;而关联多种查询的罕见购买商品,可能受益于超图嵌入的更高权重。

为最大化预测质量,还实验了两种无监督预训练方法。一是对比学习,其中GNN输入训练样本对:一些为正对(嵌入应尽可能相似),一些为负对(嵌入应尽可能不同)。遵循现有实践,通过随机删除源图的边或节点生成正对,因此所得图相似但不相同;负对将源图与不同随机图配对。将该过程扩展至超图,并确保两通道训练数据一致性,例如从一通道输入删除的节点也会从另一通道删除。

还实验了DropEdge方法,即在连续训练周期中使用同一图的稍不同版本,随机丢弃少量边。这防止过拟合和过平滑,鼓励GNN学习输入的更抽象表示。

预训练显著提高双通道模型和基线GNN的质量,但也增加两者差异。即该方法本身有时仅产生相对于基线模型的适度改进,但经预训练后该方法较大幅度优于经预训练的基线模型。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-01 09:01  CodeShare  阅读(7)  评论(0)    收藏  举报