摘要:
4.4 采集日志Flume 4.4.1 日志采集Flume安装 集群规划: 4.4.2 项目经验之Flume组件 1)Source (1)Taildir Source相比Exec Source、Spooling Directory Source的优势 TailDir Source:断点续传、多目录。 阅读全文
posted @ 2021-01-13 16:29
大码王
阅读(363)
评论(0)
推荐(0)
摘要:
第4章 数据采集模块 4.1 Hadoop安装 1)集群规划: 注意:尽量使用离线方式安装 4.1.1 项目经验之HDFS存储多目录 若HDFS存储空间紧张,需要对DataNode进行磁盘扩展。 1)在DataNode节点增加磁盘并进行挂载。 2)在hdfs-site.xml文件中配置多目录,注意新 阅读全文
posted @ 2021-01-13 16:18
大码王
阅读(349)
评论(0)
推荐(0)
摘要:
第1章 数据仓库概念 第2章 项目需求及架构设计 2.1 项目需求分析 2.2 项目框架 2.2.1 技术选型 2.2.2 系统数据流程设计 2.2.3 框架版本选型 2.2.4 服务器选型 2.2.5 集群资源规划设计 2)测试集群服务器规划 第3章 数据生成模块 3.1 埋点数据基本格式 公共字 阅读全文
posted @ 2021-01-13 15:58
大码王
阅读(295)
评论(0)
推荐(0)
摘要:
2.4 关系建模与维度建模关系模型关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。维度模型维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以把相关 阅读全文
posted @ 2021-01-13 15:04
大码王
阅读(403)
评论(0)
推荐(0)
摘要:
第1章 电商业务与数据结构简介1.1 电商业务流程 1.2 电商常识(SKU、SPU) SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU(Standard Product Unit):是商品信息聚合的最小单位 阅读全文
posted @ 2021-01-13 14:46
大码王
阅读(474)
评论(0)
推荐(0)


浙公网安备 33010602011771号