2021年7月4日

数据的结构化、半结构化、非结构化

摘要: 结构化数据 结构化数据指的可以在一个记录文件里面以固定格式存在的数据,它依赖于提前建立好的数据标准规范(有时候也称元数据),例如:需要多少个属性,每个属性什么类型,每个属性的取值范围等等,类似下图所示,提前定义好了一个二维矩阵的元数据,包含有列名称、列的类型、列的约束等: 可见,虽然结构化数据的存储 阅读全文

posted @ 2021-07-04 23:18 呼延灼 阅读(5007) 评论(0) 推荐(0)

大数据的“批处理”和“流处理”

摘要: 批处理 批处理的输入是在一段时间内已经采集并存储好的有边界数据(相关概念见后面附录介绍)。同样的,输出数据也一样是有边界数据。当然,每次经过批处理后所产生的输出也可以作为下一次批处理的输入。 举个例子,你在每年年初所看到的“支付宝年账单”就是一个数据批处理的典型例子: 支付宝会将我们在过去一年中的消 阅读全文

posted @ 2021-07-04 22:12 呼延灼 阅读(3600) 评论(0) 推荐(1)

导航