【KDD2020论文阅读总结】亚马逊的商品知识自动采集系统

【应用】构建亚马逊电商的零售商品知识体系
【领域】Graph-based database models
【文章要点】
1. 该系统包含了一套新颖的分类法构建、产品特性识别、知识提取、异常检测和同义词发现技术。
2. AutoKnow是(a)自动性,几乎不需要人工干预,(b)可拓展性,在多个维度上可拓展(许多领域、许多产品和许多属性),以及(c)综合性,利用丰富的客户行为日志。
3. AutoKnow的基本业务示例
4. 构建商品KG遇到的挑战:1) 结构稀疏性:分类繁多,每个零售商的分类不一样 2) 领域复杂性:类间关系复杂,如子类,同义,包含与覆盖,商品的类别关系还随时间变化 3)商品种类多样 
5. 首先,我们利用自然应用于知识图的图结构(实体可视为节点,关系可视为边)和分类法(树形结构),并应用图学习的神经网络(GNN)。
    其次,我们将产品分类作为输入信号来训练我们的模型,并将我们的任务与产品分类结合起来进行多任务训练,以获得更好的性能。
    第三,我们努力用有限的标签来学习,以减轻手工训练数据创建的负担,依赖弱监督(例如,远程监督)和半监督学习。
    第四,我们从零售领域中大量的客户行为日志中为相同的概念(例如,类型、属性值)挖掘事实和异构表达式。
6. 问题定义:商品编目: C = (τ, A, P) 。商品分类τ= (T,H),T商品类型,H表示T的上位词关系; A商品属性; 每个商品的属性P ={PID, {T }, {(A,V )}}。L用户行为日志。 商品知识发现的输入是C和L
7. 系统结构:
8. 结构说明:
   Ontology: 分类和关系发现
   Data Suit: 数据注入、数据清理和同义词发现
9. 分类Taxonomy Enrichment:难点——发现新类别并并新类别与现有的分类编目相关联
   发现新类别的方式:(有监督的实体发现,BIOE)从商品标题中发现,从用户搜索中提取
   关系关联:二分类问题,使用GNN捕捉用户行为。特别地,我们首先构造一个图,其中节点表示类型、产品和查询,边表示各种关系,包括1)共同查看产品,    2)导致购买产品的查询,3)查询或产品中提到的类型(根据提取)。然后得到节点的表征。最后将表征输入分类器。同理,该方式也是基于有监督。

10. 关系发现Relation Discovery:识别适用和重要的属性,挖掘T和A的关系。使用随机森林。
 11.   结果例子:

posted @ 2020-09-01 10:17  梳下鱼  阅读(466)  评论(0编辑  收藏  举报