半结构化数据_知识抽取
1. 面向百科类的数据抽取
框架:
页面集合:包含本地及远程的维基百科文章数据
目标数据:存储或序列化提取的RDF三元组
提取器:将特定类型的维基标记转化为三元组的提取器
解析器:确定数据类型,在不同单元之间转换值并标记分解成列表
提取作业:将页面集合,提取器和目标数据分组到一个工作流
知识提取管理器:维基百科文章--传递--提取器--输出--传递--目标数据
结构化数据:
标签(labels):抽取词条标题
摘要(abstract):词条页面的第一段文字
跨语言链接(Inter-language Links):指向其他版本的跨语言链接
图片(Image):指向图片的链接
重定向(redirects):重定向链接,建立同义词条的关联
消歧(disambiguation):消歧页面抽取有歧意的词条链接
外部链接(external links):指向维基百科外部的链接
页面链接(pagelinks):维基百科内部的链接
主页(homepage):主页链接
分类(categories):所属类别
地理坐标(geo-coordinates):页面存在的地理位置的经纬度坐标
信息框(infobox):从信息框抽取实体的结构化信息。
2. 面向web网页的知识抽取
网页---输入--包装器--输出--结构化数据
1.手工方法
查看网页结构和代码,在人工分析的基础上,手工编写抽取表达式
Xpath表达式: XML语言路径
CSS选择器的表达式
2. 包装归纳方法
有监督学习方法--已标注的训练样本集合--学习信息抽取规则--其他网页数据抽取
步骤:
(1)网页清洗:清洗不规范的HTML,XML,可采用TIDY类
(2) 网页标注:某个位置打上特殊的标签
(3)包装器空间生成:将标注数据生成XPath集合空间,对集合进行归纳,形成若干个子集
(4)包装器评估:准确率和召回率
3.自动抽取方法
相似的网页通过聚类分成若干组
挖掘同一组中相似网页的重复模式,生成适用于该组网页的包装器
将需要抽取的页面划分到对应的网页组,对应组的包装器进行数据抽取

posted on 2019-11-29 15:40 happygril3 阅读(2524) 评论(0) 收藏 举报
浙公网安备 33010602011771号