• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

黄文超

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

View Post

【实体统一】大数据环境下一种基于模式匹配的实体统一方法

大数据环境下一种基于模式匹配的实体统一方法

1、要解决什么问题?

1、传统实体统一主要针对小数据集,以前数据量小传统方法还可以,但是现在数据量大了,传统方法解决起来太慢了
2、数据量这么庞大,如何从大量数据中获取到值得我们关注的问题

2、实体统一相关解决思路

(1)、穷尽式的实体统一

解释:
	说白了,就是一一进行比较,看两个实体是否为同一个实体
好处和坏处:
	好处就是精度高
	坏处就是这样比较太慢了

(2)、分块的实体统一

解释:
	把那种相似的实体,放到一个块中,他们拥有同一个键值。
好处和坏处
	好处就是速度快
	坏处就是精度低

(3)、分布式架构的实体统一

解释:
	在之前的分块实体统一的基础之上,进行二次匹配,这次只是块内进行匹配,通过设定跨度距离来控制匹配的实体数量,并且块之间是分布式进行计算,极大提高计算机效率。
好处和坏处
	好处就是速度快(但是和距离设置有关)
	坏处就是精度较低

3、算法模型

分为3块数据分块模块、模式匹配和抽取模块、模式合并模块

(1)、数据分块模块

(2)、模式匹配和抽取模块

(3)、模式合并模块

​ 经过前面的这个方式筛选,过滤和匹配之后,得到一个新的集合,这个新的集合是由多个相似块进行合并和拆分出来的结果集。

4、用到的算法

(1)、相似度计算

目的:
	做模式之间的相似度计算,主要是为了后续模式之间的合并做了一个依据,相似度在我们规定的范围内就可以进行合并。

假如有实体:R{halloworde, helloworld}

1、先得到单个实体对应的模式公式,如下操作,进行比较
	halloworde 
	helloworld
	只有2位置和最后两个位置不一样,所以我们可以将他们归类为一种模式M:h{a,e}llowor{d,l}{e,d}
2、根据每个实体对应得到的模式 {R1,R2,R3.....} ——> {M1,M2,M3.....},然后我们对它的模式进行相似度计算
	即我们比较 {M1,M2,M3.....}他们的相似度,为了将他们进一步合并。

(2)、模式快速扫描算法( PRSA)

1、根据第一步算出来的相似度,我们可以对他们进行比较。
2、把他们共同的地方标记出来,把不同的索引标记出来,记录下来(相同模式地方,不同模式处,不同模式处的索引)

(3)、模式抽取算法( PEA)

直接将上一步扫描的结果进行模式抽取,把他们的模式进行合并。

5、总结

实体统一算法的时间效率的要求越来越来,我们要尽量保证有效性的同时,重点关注如何更迅速地从大数据集中得到我们需要的数据实体。

posted on 2021-03-30 16:19  黄文超  阅读(508)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3