01 2020 档案

摘要:MapReduce概述 1、源自google的MapReduce论文,论文发表于2004.12 2、Hadoop MapReduce是google MapReduce的克隆版 3、MapReduce优点:海量数据离线处理&易开发&易运行(易开发和易运行只是相对而言) 4、MapReduce缺点:实时 阅读全文
posted @ 2020-01-14 17:53 迎风飞舞de蒲公英 阅读(803) 评论(0) 推荐(0)
摘要:简述 HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错 阅读全文
posted @ 2020-01-14 16:15 迎风飞舞de蒲公英 阅读(209) 评论(0) 推荐(0)
摘要:一、确定主题 即确定数据分析或前端展现的主题。(以汽车行业的KPI管理分析系统为例) 例如:我们希望分析某年某月某区域某门店销售情况,这就是一个主题。 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。统计数值型数据(量度)存在于中间的事实表;分析角度 阅读全文
posted @ 2020-01-10 12:07 迎风飞舞de蒲公英 阅读(1981) 评论(0) 推荐(1)
摘要:维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。 下面是两个常见的维度表结构: 产 阅读全文
posted @ 2020-01-10 11:17 迎风飞舞de蒲公英 阅读(945) 评论(0) 推荐(0)