第三章 商品知识融合

3.1 知识融合概述

知识融合定义

知识融合就是在构建知识图谱的过程中对多个知识库的知识进行合并的过程

3.1.1 知识融合主要难点

异构问题

  • 不同知识对同一个实体表达差异很大,可能出现大量别名(iPhone 苹果)

歧义问题:

  • 不同实体可能使用类似表达(苹果 吃的 手机)

数据噪声问题:

  • 多知识库融合可能会放大噪声(数据的错误描述)

跨语言问题

  • 多种语言描述同一实体的差距

3.1.2 知识融合的基本步骤

本体对齐

  • 对多个知识库的结构(类,属性项,属性值)的对齐,解决结构的异构问题。

实体对齐

  • 把多个知识库中描述同一个实体的记录找出来

信息融合

  • 将不同知识库的对齐实体的属性融合到一起的过程

3.2 本体对齐

按照本体结构的三要素将本体对齐分为了类,属性项,属性值对齐,且存在隶属关系。在本体对齐过程中一般按顺序进行。

3.2.1 基于语言学特征的方法

基于语言学特征将需要对其的结构作为普通的字符串或者命名实体来处理,找到等价,相似和上下位关系。将问题转换为自然语言处理中的同义词和上下位词关系。

基于语言学特征的方法

  • 使用现有的词典进行匹配

基于字面匹配的方法

  • 将待对齐属性看作字符串,使用各种编辑距离计算相似度

基于字符串语义相似度的方法

  • 看作有监督的分类问题,通过预训练模型将待对齐的两个词向量作为输入,输入到分类模型中。

基于上下文的方法

  • 使用常见的上下文模板对比上下文出现的词对,从而发现同义词对(Bootstrapping)

3.2.2 基于结构特征的方法

运用树状结构的特征和结构信息帮助本体对齐

缩小本体对齐范围

  • 大类对齐后直接对齐下属分支,减少搜索空间。

根据已对齐的本体推理更多对齐本体

  • 小属性推大属性,若大类下多个属性项对齐,则可推断两个类也对齐。

Anchor-PROMPT算法

  • 若已对齐的术语又与之链接的路径,可提升路径中术语的相似度

1.先找出本体结构中可以对齐的术语对,并作为种子;
2.生成一组长度小于L的路径,连接这些种子本体对;
3.对于路径中位置相同的节点,增加术语对的相似度得分;
4.遍历所有路径,累计所有相似度得分;

3.2.3 阿里巴巴商品知识图谱对齐算法

商品知识图谱本体结构特点

零售平台多且会不断扩展
商品领域拆分维度多
  • 对同一商品又不同的分类维度
属性项种类多
  • 不同实体下属分类完全不同
属性值划分粒度不同
  • 对同一属性项不同平台进行划分时粒度有差别

商品知识图谱的本体对齐算法

采用本体集成而非本体映射

本体集成为将多套本体结构进行合并和取舍,进而生成一套新的本体系统(算法+专家运营)。在新数据库扩展时,只需要和集成的新本体系统进行比对合并即可,不需要与每一个现有的数据库进行比较映射。
Alt text

处理不同粒度的类对齐问题

采用了数据挖掘中关联规则的方法,通过关联规则挖掘频繁属性值,再通过人工审核得到准确的,不同粒度的类对齐结果。
即将一些属性值(罐装巧克力=巧克力加罐装),随后通过关联规则的正向,反向置信度进行频繁项属性计算。

属性项分类

不同类别的属性项采取 不同的属性值对齐方式。
Alt text

基于层次结构的属性值体系

为了解决属性值划分粒度不同的问题,将一些存在上下位关系的属性,通过存储两个层级保证能兼容不同级别的属性值。

商品领域同义词发现算法

Alt text

粗召回
  • 存量同义词表
  • Query-标题点击数据:搜索关键词和用户点击关键词存在同义词
  • 同Session的Query:用户在一个搜索框重复搜索的关键词
  • 字符串Pattern
  • 字面/拼音相似度
  • 词向量相似度
精准分类

Alt text

  • 实质为一个训练好的二分类器

为了提高准确度可以使用效果较好的预训练模型BERT、XLNET

商品知识图谱对齐架构图

Alt text

3.3 实体对齐

3.4 信息融合

为了解决多套知识图谱或知识库在描述同一个实体的属性冲突。

噪声数据-----错误数据

异构问题-----不同知识库对同一属性有很多同义表达

3.4.1无监督信息融合方法

基于投票的信息融合

  • 合并所有信息源的取值,选择出现最多的值

优点为实现简单,缺点为过于简单,由于有噪声数据的影响,比较难获得较高的准确率。

在简单投票的基础上,一个简单的改进是对不同知识来源进行置信度评估,给予每个信息源不同的权重。

基于迭代模型的信息融合

  • 通过迭代两个相互依赖的变量(数据源的置信度和该数据源提供属性值的置信度),直到取值稳定。

一个属性值的取值需要各个数据源的加权平均投票算法得到

数据源的置信度(权重)则需要基于当前已经观测到属性值的真值来估计

TruthFinder算法

Alt text
先对每一个数据源置一个统一的值,然后迭代计算$\tau(w)$和$s(f)$的值,终止条件是个数据源置信度$\tau(w)$稳定在一个范围内为止。

1.初始化数据源的置信度

首先基于观测到的属性值计算数据源的置信度,公式如下:
$$\tau(w)=\frac{\sum_{f \in F(w)} s(f)}{|F(w)|}$$
其中$\tau(w)$为初始化数据源的置信度

$s(f)$为初始的属性观测值

$F(w)$为数据源W提及所有属性值集合,即属性个数。

2.基于数据源置信度加权平均计算属性值的置信度

$$\sigma\left(f\right)=\sum_{w \in \overline{W(f)}} \tau(w)$$
其中$W(f)$是所有提及了属性值$f$的数据源集合。

3.具体示例计算

具体到$f(1)$在初始化数据源后,有上图可知,数据源$w(1)$和$w(2)$提及了属性值$f(1)$,所以在迭代过程中$\sigma f(1)$的计算公式如下:
$$\sigma\left(f_{1}\right)=\frac{\tau\left(w_{1}\right)+\tau\left(w_{2}\right)}{2}$$
而在计算完属性值$f(1)$和$f(2)$后。数据源$\tau w(1)$提及了属性值$f(1)$和$f(2)$,所以$\tau w(1)$的计算公式如下:
$$\tau\left(w_{1}\right)=\frac{s\left(f_{1}\right)+s\left(f_{2}\right)}{2}$$

4.支持度影响

本算法在计算属性值置信度时还考虑了同一个属性项下面不同属性值之间的影响。用$imp(𝑓_2 →𝑓_1)$表征属性值$𝑓_2$对属性值$𝑓_1$的支持度。若$imp(𝑓_2 →𝑓_1)$为正值,表示$𝑓_2$对$𝑓_1$有一定的语义相关性(红色,大红色);若$imp(𝑓_2 →𝑓_1)$为负值,表示两个取值互相冲突(红色、绿色)。在结合$imp$函数之后,属性值的置信度计算公式如下,采用了类似PageRank算法的权重计算方式:
$$s(f)=\sigma(f)+\rho \sum_{\uparrow o\left(f^{\prime}\right)=o(f)} \sigma\left(f{\prime}\right) \operatorname{imp}\left(f^{\prime} \rightarrow f\right)$$

ACCU算法

相比较TruthFinder算法加入了复制检测步骤,基本思路为如果两个数据源拥有共同的错误属性值,则意味着潜在的复制关系;确定两个数据源谁复制谁的问题,则是通过计算两个数据源$𝑤_1$和$𝑤_2$的交集和差集中提及的属性值准确度来判断。这种方法的前提假设是如果一个数据源的知识来自原创,则其各属性的准确度应该是近似的。

基于优化模型的信息融合

  • 基于优化模型采取了传统机器学习的优化算法优化目标函数。

通过最小化带约束的目标函数联合估计属性值真值$𝑉={𝑉_1,𝑉_2,𝑉_3,…,𝑉_n }$和数据源置信度$𝑊={𝑤_1,𝑤_2,…,𝑤_𝑛 }$,信息融合的目标函数可以定义为:
$$\min \sum_{V_{0} \in V w_{k} \in W} f\left(w_{k}, V_{0}\right)$$

CRH算法

CRH算法对目标函数进行了改写,定义𝑊为数据源的置信度: $𝑊={𝑤_1,𝑤_2,…,𝑤_𝑛 }$,定义$x^{(∗)}$ 为属性值真值集合:
$$\chi^{()}=\left{v_{i m}^{()}\right}_{i=1, m=1}^{|\vec{N},| \vec{M}}$$
i为数据集中的样本编号,N为样本总数,m为属性项序号,M为属性项总数。

CRH改写后的目标函数为:
$$$$
求解逻辑为根据数据源置信度更新公式和真值计算公式不断迭代计算,直到满足终止条件,最后输出真值数据和每个数据源的置信度。

基于概率图模型的信息融合

  • 是一种用图表示变量概率依赖关系的理论

在信息融合中,变量之间的依赖关系是有向的,使用图贝叶斯网络。

贝叶斯网络一般可以表示为𝐺=(𝑉,𝐸),其中𝑉是图中的节点集合, 𝐸是图中的有向边集合。图中的每个节点都是一个随机变量,符合一定的概率分布,每条边都代表了两个随机变量之间依赖关系,这种依赖关系一般表示为条件概率。
Alt text
如左图所示,变量𝑥_4受𝑥_3 影响,𝑥_3受𝑥_1和𝑥_2影响。它们的联合概率可以表示为
$$𝑃(𝑥_1,𝑥_2 𝑥_3 𝑥_4 )=𝑃(𝑥_1 )∙ 𝑃(𝑥_2 )∙ 𝑃(𝑥_3 |𝑥_1 〖,𝑥〗_2 )∙ 𝑃(𝑥_4 |𝑥_3 )$$
通过在样本中进行极大似然估计来计算各项条件概率表。

LTM算法

改写数据集

对数据集进行改写,避免缺失和数据不准。
Alt text
改写后
Alt text
定义四种情况
其中o是数据源取值,t是真实值
Alt text

3.4.2 有监督和半监督的信息融合方法

监督学习需要大量的标注数据样本,训练开销太大,所以在大部分情况下使用小样本的半监督学习方法————SLiMFast

使用带少量样本的半监督学习代替完全无监督模型

创新性的引入了领域特征,帮助模型判断数据源的置信度
$$P\left(T_{o}=d \mid \Omega ; \omega\right)=\frac{1}{Z} \exp \left(\sum_{(o, s) \in \Omega} \omega_{S}+\sum_{k \in K}\left(\omega_{k} f_{s, k}\right) \cdot 1_{v_{o, s=d}}\right)$$
求解过程主要分为两步,第一步是通过随机梯度下降(SGD)等优化方法学习参数$\omega_𝑆$和$\omega_𝑘$,其中$𝜔_𝑆$表示数据源的置信度, $𝜔_𝑘$表示每个领域特征的权重,$𝑓_(𝑠,𝑘)$代表第𝑠个数据源的第k个领域特征。

第二步是推断难以观测的随机变量T的最大后验分配

完成后即可同时得到数据源的置信度和估计真值。

3.4.3 商品知识图谱信息融合算法实践

商品结构化属性融合

  • 提出了一种类PageRank算法的属性融合算法

商品标题融合

  • 采用属性拼接和模型生成两种自然语言生成算法

商品图片信息融合

  • 商品图片信息融合的核心是从众多的图片中选择质量最好的图片,商品知识图谱根据像素、是否“牛皮癣”、是否白底等特征训练了图片质量分回归算法,再从对齐实体的所有图片中选取质量分最高的TopN图片即可。
posted @ 2023-03-17 10:20  清欢木心  阅读(238)  评论(0)    收藏  举报