半结构化数据_知识抽取

1. 面向百科类的数据抽取
框架：
页面集合：包含本地及远程的维基百科文章数据
目标数据：存储或序列化提取的RDF三元组
提取器：将特定类型的维基标记转化为三元组的提取器
解析器：确定数据类型，在不同单元之间转换值并标记分解成列表
提取作业：将页面集合，提取器和目标数据分组到一个工作流
知识提取管理器：维基百科文章--传递--提取器--输出--传递--目标数据
结构化数据：
标签（labels）：抽取词条标题
摘要（abstract）:词条页面的第一段文字
跨语言链接（Inter-language Links）:指向其他版本的跨语言链接
图片（Image）：指向图片的链接
重定向（redirects）:重定向链接，建立同义词条的关联
消歧（disambiguation）:消歧页面抽取有歧意的词条链接
外部链接（external links）:指向维基百科外部的链接
页面链接（pagelinks）:维基百科内部的链接
主页（homepage）：主页链接
分类（categories）:所属类别
地理坐标（geo-coordinates)：页面存在的地理位置的经纬度坐标
信息框（infobox）：从信息框抽取实体的结构化信息。
2. 面向web网页的知识抽取
网页---输入--包装器--输出--结构化数据
1.手工方法
查看网页结构和代码，在人工分析的基础上，手工编写抽取表达式
Xpath表达式: XML语言路径
CSS选择器的表达式
2. 包装归纳方法
有监督学习方法--已标注的训练样本集合--学习信息抽取规则--其他网页数据抽取
步骤：
（1）网页清洗：清洗不规范的HTML,XML，可采用TIDY类
（2）网页标注：某个位置打上特殊的标签
（3）包装器空间生成：将标注数据生成XPath集合空间，对集合进行归纳，形成若干个子集
（4）包装器评估：准确率和召回率
3.自动抽取方法
相似的网页通过聚类分成若干组
挖掘同一组中相似网页的重复模式，生成适用于该组网页的包装器
将需要抽取的页面划分到对应的网页组，对应组的包装器进行数据抽取

posted on 2019-11-29 15:40 happygril3 阅读(2531) 评论(0) 收藏举报

刷新页面返回顶部

happygril3

半结构化数据_知识抽取

导航

公告