摘要: 在上6节当中,我们已经完成了从ods层到dwd层的转换,包括日志数据和业务数据,下面我们开始做dwm层的任务。 DWM 层主要服务 DWS,因为部分需求直接从 DWD 层到DWS 层中间会有一定的计算量,而且这部分计算的结果很有可能被多个 DWS 层主题复用,所以部分 DWD 会形成一层 DWM 阅读全文
posted @ 2022-03-05 22:43 选手一号位 阅读(482) 评论(0) 推荐(0)
摘要: HDFS免重启挂载新磁盘 在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),Yarn的磁盘阈值检查(yarn.nodemanager.disk-health-checker.min-healthy-disks),默认是90%,超过这个值就会不健康,集群有个节点不健康,就会导致任务运行缓慢,之后任务再挤压,Yarn资源被集中占用,最终影响上层服务。 阅读全文
posted @ 2022-02-25 22:40 选手一号位 阅读(290) 评论(0) 推荐(0)
摘要: 6.Flink实时项目之业务数据分流 在上一篇文章中,我们已经获取到了业务数据的输出流,分别是dim层维度数据的输出流,及dwd层事实数据的输出流,接下来我们要做的就是把这些输出流分别再流向对应的数据介质中,dim层流向hbase中,dwd层依旧回写到kafka中。 阅读全文
posted @ 2022-02-22 00:05 选手一号位 阅读(385) 评论(0) 推荐(0)
摘要: 5.Flink实时项目之业务数据准备 在上一篇文章中,我们已经把客户端的页面日志,启动日志,曝光日志分别发送到kafka对应的主题中。在本文中,我们将把业务数据也发送到对应的kafka主题中。 通过maxwell采集业务数据变化,相当于是ods数据,把采集的数据发送到kafka的topic(ods_base_db_m)中,然后flink从kafka消费数据,这个过程有维度数据,就放到hbase中,其他事实数据再发送给kafka作为dwd层。flink消费kafka数据可以做一些简单的ETL处理,比如过滤空值,长度限制。 阅读全文
posted @ 2022-02-19 22:16 选手一号位 阅读(256) 评论(0) 推荐(0)
摘要: 4.Flink实时项目之日志数据拆分 我们前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据,但是有着完全不一样的数据结构,所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中,作为日志 DWD 层。 阅读全文
posted @ 2022-02-14 23:10 选手一号位 阅读(476) 评论(0) 推荐(2)
摘要: 2.Flink实时项目之Maxwell介绍 Maxwell 是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。 阅读全文
posted @ 2022-02-10 23:21 选手一号位 阅读(440) 评论(0) 推荐(0)
摘要: 3.Flink实时项目之流程分析及环境搭建 前面已经将日志数据(ods_base_log)及业务数据(ods_base_db_m)发送到kafka,作为ods层,接下来要做的就是通过flink消费kafka 的ods数据,进行简单的处理作为dwd层,然后再写回到kafka。 阅读全文
posted @ 2022-02-10 23:08 选手一号位 阅读(198) 评论(0) 推荐(0)
摘要: 1.Flink实时项目之前期准备 Flink实时项目前期准备,包括日志生成,日志监听,nginx负载,最后发送到kafka的ODS层。 阅读全文
posted @ 2022-02-05 12:25 选手一号位 阅读(167) 评论(1) 推荐(0)
摘要: VMWare12+centos7安装 1.打开并创建虚拟机 2.自定义安装 3.选择稍后安装操作系统 4.操作系统的选择 5.虚拟机位置与命名 6.根据设备配置高低,自行设置资源 在使用过程中CPU不够的话是可以再增加的 7.设置内存 内存也是要根据实际的需求分配。我的宿主机内存是16G所以我给虚拟机分配2G内存。 后期可再添加 8.选 阅读全文
posted @ 2022-02-01 20:12 选手一号位 阅读(60) 评论(0) 推荐(0)
摘要: Linux免密登录 未设置免密情况下 我们以node002登录node001为例 [root@node002 ~]# ssh node001 输入密码,登录成功,exit退出,回到node002 开始设置免密登录 [root@node002 ~]# ssh-key 输入命令ssh-keygen后 以上三个地方回撤即可 阅读全文
posted @ 2022-02-01 13:56 选手一号位 阅读(106) 评论(0) 推荐(0)