酱汁怪兽

2021年12月8日

摘要： Kafka Producer API编程 1）工作当中，使用Kafka的场景：和流处理进行关联/对接。也就是通过流处理系统（Spark Streaming\Flink\Storm流处理引擎）对接Kafka的数据，然后获取topic里的数据，进行消费和统计分析。这种场景一般是使用API的方式进行交互的阅读全文

posted @ 2021-12-08 14:43 酱汁怪兽阅读(283) 评论(0) 推荐(0)

2021年12月1日

大数据Spark实时处理--实时数据交换1（Kafka）

摘要： Kafka概述官网Apache Kafka 传统上的认知，Kafka是一个消息队列这样的工具。随着发展，Kafka可以作为流处理平台。但是主流的流处理平台：spark、flink、storm等 Kafka可以实时处理。 Kafka的吞吐率是很高的，而且可以构建在廉价的机器上，和hadoop是一样阅读全文

posted @ 2021-12-01 10:56 酱汁怪兽阅读(599) 评论(0) 推荐(0)

2021年11月24日

大数据Spark实时处理--数据收集2（Flume）

摘要： Flume自定义拦截器开发 1）进入IDEA，给spark-log4j这个项目名称，单独加 Module >maven >next >Artifactld：log-flume >next >Module name：log-flume >finish 2）进入主的pom.xml 添加flume的版本阅读全文

posted @ 2021-11-24 16:24 酱汁怪兽阅读(301) 评论(0) 推荐(0)

2021年11月17日

大数据Spark实时处理--数据收集1（Flume）

摘要：基于Flume构建分布式日志收集 0）Flume是一个日志数据的收集工具 1）前提是数据采集，落在了log server的磁盘上，这一步已经完成。然后呢，我们需要通过什么样的技术/框架，将这些分散在log server上的一些日志，收集到统一的地方，比如说是HDFS上或者是kafka，最后来进行后续阅读全文

posted @ 2021-11-17 14:55 酱汁怪兽阅读(940) 评论(0) 推荐(0)

2021年11月1日

大数据Spark实时处理--数据采集2（构建日志服务器）

摘要： yml配置文件的作用 1）生产中，不建议使用src/main/resources中的application.properties，这种方式进行配置。 2）首先注释掉application.properties：更改名字为application.properties-bak。即注释掉。 3）在C:\U 阅读全文

posted @ 2021-11-01 14:23 酱汁怪兽阅读(332) 评论(0) 推荐(0)

2021年10月15日

大数据Spark实时处理--数据采集1（构建日志服务器）

摘要：数据产生和上报流程 1）客户端定时采集 >数据加密 >数据传至日志服务器上 >数据解密 >日志落地磁盘 2）可以考虑数据压缩基于IDEA+Maven构建多Module本地开发环境 1）多Module带来的好处：GitHub - apache/spark: Apache Spark - A unif 阅读全文

posted @ 2021-10-15 17:55 酱汁怪兽阅读(389) 评论(0) 推荐(0)

大数据Spark实时处理--环境搭建

摘要： OOTB 1）虚拟机存储地址：D:\Spark\hadoop000\hadoop000。更名为spark000 2）通过虚拟机左上角的文件，打开 hadoop000 文件中的 hadoop000.vmx 3）点击开启此虚拟机 4）跳出的弹框，点击我已复制该虚拟机 5）配置虚拟机联通网络 [had 阅读全文

posted @ 2021-10-15 16:08 酱汁怪兽阅读(154) 评论(0) 推荐(0)

2021年10月14日

大数据Spark实时处理--架构分析

摘要： Spark是一个实时处理框架 Spark提供了两套实施解决方案：Spark Streaming（SS）、Structured Streaming（SSS）然后再结合其它框架：Kafka、HBase、Flume、Redis 项目流程：架构分析、数据产生、数据采集、数据收集、数据实时交换、实时流处理、阅读全文

posted @ 2021-10-14 10:27 酱汁怪兽阅读(684) 评论(0) 推荐(0)

2021年10月12日

Hadoop分布式集群搭建

摘要： 1、Hadoop集群规划（1）基本 HDFS: NN（name node）、DN（data node） YARN: RM（resource manage）、NM（node manage）（2）对于集群，如何分布以上的节点呢？通过文件，打开hadoop000文件中的hadoop000.vmx 点阅读全文

posted @ 2021-10-12 17:12 酱汁怪兽阅读(221) 评论(0) 推荐(0)

2021年9月7日

Azkaban实战篇

摘要： 0、Windows配置系统变量gvim81 （1）变量：Path （2）值：D:\gvim81\Vim\vim81 （3）本地cmd要以管理员身份运行 1、Dependency作业（1）本地管理员cmd：foo.job C:\azkaban>vim foo.job # foo.job type=c 阅读全文

posted @ 2021-09-07 15:33 酱汁怪兽阅读(103) 评论(0) 推荐(0)

公告