1、半结构化数据定义

结构化数据:传统数据库中定义的数据,商业的交易数据等都是拥有固定的数据结构。

非结构化数据:另一个极端,对于图片、声音和生文本(指未经计算机处理的预料),这些数据完全没有固定结构,故被称为非结构化数据。

半结构化数据(semi-structured data):处于两个极端之间,结构隐含在数据中的,或者模式繁多且经常变化以至于会忽略的数据称为半结构化数据。

2、半结构化数据特征

(1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。
(2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。
(3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态的结构模式。

3、半结构化数据模型

结构化数据模型:E-R模型、关系模型和对象模型

半结构化数据模型:

  • OEM(Object exchange Model),对象交换模型
  • OIM(Object Integration Model),对象融合模型【找不到!】
    ​ + Integrated Object Model(IOM),集成对象模型【好像不是一个东西】
    ​ + https://support.sas.com/rnd/itech/doc/dist-obj/iom.html​
  • MFRO(Minimal Full Representation Objects),最小完整表示对象【找不到?】

在数据库方法中,半结构化数据的表示一般用OEM(Object Exchange Model)[4]模型.也可用OIM(Object Integration Model)模型[4,5,6],
用MFRO(Minimal Full Representation Objects)[7,8]方法实现其模式抽取。OIM是OEM的一种变形数据模型。数据库方法的应用集中在模式发现、多层数据库的建立或数据向导(Data Guides)的建立以及web查询系统。
参考:[1]陈修宽,董祥军,石芙芙.Web数据挖掘综述[J].山东轻工业学院学报(自然科学版),2009,23(03):25-28.

数据模型:

  • 结构化数据:二维表(关系型) 
  • 半结构化数据:树、图 
  • 非结构化数据:无

结构化数据:先有结构、再有数据
半结构化数据:先有数据,再有结构

4、半结构化数据有哪些

数据类型:OWL,XML(SGML),HTML,JSON,RDF

常用的数据交换格式:XML和JSON

XML,扩展标记语言,是标准通用标记语言SGML的子集。起初的设计目标是通用数据标记和呈现文档格式。XML文档的内容的语义部分不证自明蕴于其结构之中。XML设计的基础部分考虑了简单性和用户可读性。W3C指出XML应用于互联网中并且易读易理解。XML在起初是用于远程过程调用(RPC)和对象序列化中。
XML创建了用户定义的文档标记和编码模式。
但是XML没有预先定义标记集,也就是说要么用户自己定义,要么通过其他的模式来自动生成。

//一个XML文档的例子:a person named'John Simth
<name>
  <first>John</first>
  <second>Simth</second>
</name>

JSON开始被设计为用户可读且电脑易于解析和使用。JSON是在JavaScript脚本语言中直接支持,因而非常适用于JavaScript应用,且性能明显超过XML,因为后者校额外的类库从文档对象模型DOM中解析对象。与XML相比,JSON在命名空间的支持、输入验证支持和扩展性支持方面有所缺陷,但是解析速度却会超过XML文档百倍。

//一个JSON文档的例子:a person named'John Simth'
{
  "6rstname":John"
  "secondname":"Smith"
}

主要有三方面:

(1)在lnternet等对存储数据无严格模式限制的情形下,常见的有HTML、XML(SGML)和JSON文件等;

(2)在电子邮件、电子商务、文献检索和病历处理中,存在着大量结构和内容均不固定的数据;

(3)异构信息源集成情形下,由于信息源上的互操作要存取的信息源范围很广,包括各类数据库、知识库、电子图书和文件系统等。

具体例子

政府开放数据各个源:数据模式不确定,多属于半结构化数据范畴;

员工的简历:字段不确定。

有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更;

通信信号循环谱:

参考:[1]刘东威.面向JSON半结构化文档的聚类技术研究[D].东南大学,2017.【2.1】

posted on 2022-08-29 21:58  西伯尔  阅读(4135)  评论(0编辑  收藏  举报