会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
酱汁怪兽
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
13
下一页
2021年12月8日
大数据Spark实时处理--实时数据交换2(Kafka)
摘要: Kafka Producer API编程 1)工作当中,使用Kafka的场景:和流处理进行关联/对接。也就是通过流处理系统(Spark Streaming\Flink\Storm流处理引擎)对接Kafka的数据,然后获取topic里的数据,进行消费和统计分析。这种场景一般是使用API的方式进行交互的
阅读全文
posted @ 2021-12-08 14:43 酱汁怪兽
阅读(266)
评论(0)
推荐(0)
2021年12月1日
大数据Spark实时处理--实时数据交换1(Kafka)
摘要: Kafka概述 官网Apache Kafka 传统上的认知,Kafka是一个消息队列这样的工具。随着发展,Kafka可以作为流处理平台。 但是主流的流处理平台:spark、flink、storm等 Kafka可以实时处理。 Kafka的吞吐率是很高的,而且可以构建在廉价的机器上,和hadoop是一样
阅读全文
posted @ 2021-12-01 10:56 酱汁怪兽
阅读(587)
评论(0)
推荐(0)
2021年11月24日
大数据Spark实时处理--数据收集2(Flume)
摘要: Flume自定义拦截器开发 1)进入IDEA,给spark-log4j这个项目名称,单独加 Module >maven >next >Artifactld:log-flume >next >Module name:log-flume >finish 2)进入主的pom.xml 添加flume的版本
阅读全文
posted @ 2021-11-24 16:24 酱汁怪兽
阅读(294)
评论(0)
推荐(0)
2021年11月17日
大数据Spark实时处理--数据收集1(Flume)
摘要: 基于Flume构建分布式日志收集 0)Flume是一个日志数据的收集工具 1)前提是数据采集,落在了log server的磁盘上,这一步已经完成。然后呢,我们需要通过什么样的技术/框架,将这些分散在log server上的一些日志,收集到统一的地方,比如说是HDFS上或者是kafka,最后来进行后续
阅读全文
posted @ 2021-11-17 14:55 酱汁怪兽
阅读(900)
评论(0)
推荐(0)
2021年11月1日
大数据Spark实时处理--数据采集2(构建日志服务器)
摘要: yml配置文件的作用 1)生产中,不建议使用src/main/resources中的application.properties,这种方式进行配置。 2)首先注释掉application.properties:更改名字为application.properties-bak。即注释掉。 3)在C:\U
阅读全文
posted @ 2021-11-01 14:23 酱汁怪兽
阅读(322)
评论(0)
推荐(0)
2021年10月15日
大数据Spark实时处理--数据采集1(构建日志服务器)
摘要: 数据产生和上报流程 1)客户端定时采集 >数据加密 >数据传至日志服务器上 >数据解密 >日志落地磁盘 2)可以考虑数据压缩 基于IDEA+Maven构建多Module本地开发环境 1)多Module带来的好处:GitHub - apache/spark: Apache Spark - A unif
阅读全文
posted @ 2021-10-15 17:55 酱汁怪兽
阅读(384)
评论(0)
推荐(0)
大数据Spark实时处理--环境搭建
摘要: OOTB 1)虚拟机存储地址:D:\Spark\hadoop000\hadoop000。更名为spark000 2)通过虚拟机左上角的文件,打开 hadoop000 文件中的 hadoop000.vmx 3)点击 开启此虚拟机 4)跳出的弹框,点击 我已复制该虚拟机 5)配置虚拟机联通网络 [had
阅读全文
posted @ 2021-10-15 16:08 酱汁怪兽
阅读(146)
评论(0)
推荐(0)
2021年10月14日
大数据Spark实时处理--架构分析
摘要: Spark是一个实时处理框架 Spark提供了两套实施解决方案:Spark Streaming(SS)、Structured Streaming(SSS) 然后再结合其它框架:Kafka、HBase、Flume、Redis 项目流程:架构分析、数据产生、数据采集、数据收集、数据实时交换、实时流处理、
阅读全文
posted @ 2021-10-14 10:27 酱汁怪兽
阅读(653)
评论(0)
推荐(0)
2021年10月12日
Hadoop分布式集群搭建
摘要: 1、Hadoop集群规划 (1)基本 HDFS: NN(name node)、DN(data node) YARN: RM(resource manage)、NM(node manage) (2)对于集群,如何分布以上的节点呢? 通过文件,打开hadoop000文件中的hadoop000.vmx 点
阅读全文
posted @ 2021-10-12 17:12 酱汁怪兽
阅读(204)
评论(0)
推荐(0)
2021年9月7日
Azkaban实战篇
摘要: 0、Windows配置系统变量gvim81 (1)变量:Path (2)值:D:\gvim81\Vim\vim81 (3)本地cmd要以管理员身份运行 1、Dependency作业 (1)本地管理员cmd:foo.job C:\azkaban>vim foo.job # foo.job type=c
阅读全文
posted @ 2021-09-07 15:33 酱汁怪兽
阅读(94)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
13
下一页
公告