上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 47 下一页
摘要: flume可以将数据从kafka中获取到再放到hdfs中,我在想是不是可以跳过kafka这一步。 这样的命令去运行flume name是配置文件里面的名称,但是执行结果在hdfs中找不到,目前不知道如何解决。 阅读全文
posted @ 2022-03-11 22:58 不咬牙 阅读(17) 评论(0) 推荐(0)
摘要: 今天继续学习大数据流程, flume的配置有了些了解 .conf 文件中的参数是这样的 source采集日志数据,将采集到的日志数据传输给channel channel一个队列,存储source传递过来的数据 sink从channel中获取数据,将数据输出到目标位置(HDFS、HBase、Sourc 阅读全文
posted @ 2022-03-11 22:58 不咬牙 阅读(26) 评论(0) 推荐(0)
摘要: 今天学了flume收集数据并给到kafka但是 我思索了一遍流程把 在哪里联系本地数据忘了 有点脱节了。 阅读全文
posted @ 2022-03-09 22:42 不咬牙 阅读(24) 评论(0) 推荐(0)
摘要: kafka在启动测试小工具的时候,需要注意的是 如果安装的zookeeper是集群的话 ,要将整个集群数量至少打开两台机器,不然会报错说该地址下的zookeeper连接不上 zookeeper启动命令 bin/zkServer.sh start 在每台机器目录下启动。 强制退出的命令是ctrl+c 阅读全文
posted @ 2022-03-07 20:31 不咬牙 阅读(33) 评论(0) 推荐(0)
摘要: 发现了python脚本是在linux中输入,在linux中创建.py 文件,然后在spark中提交,但是提交之后,没有创建出相应的表,我目前没有解决。 阅读全文
posted @ 2022-03-03 22:23 不咬牙 阅读(18) 评论(0) 推荐(0)
摘要: 不知道经过什么配置,我的hive启动命令是 bin/hive 不需要其他的操作。 阅读全文
posted @ 2022-03-02 20:05 不咬牙 阅读(9) 评论(0) 推荐(0)
摘要: 今天做了课堂测试,对之前的hive内容遗忘了很多,一点点复习了起来。 阅读全文
posted @ 2022-03-01 21:46 不咬牙 阅读(111) 评论(0) 推荐(0)
摘要: 什么是架构?看完博客我有了大概的了解:根据问题制定目标,依据不同角色对目标进行拆分,拆分成各个部分,切分的原则,要便于不同的角色,对切分出来的部分,并行或串行开展工作,一般并行才能减少时间,同时将各个部分进行有机的联立,对这些切分出来的部分,设立沟通机制,向着完成目标进行。 为什么要出现架构?博客做 阅读全文
posted @ 2022-02-22 10:36 不咬牙 阅读(42) 评论(0) 推荐(0)
摘要: sparksql操作连接mysql 读取mysql数据库 val session = SparkSession.builder().master("local[3]").appName("wc").getOrCreate() val data = session.read.format("jdbc" 阅读全文
posted @ 2022-02-18 15:12 不咬牙 阅读(64) 评论(0) 推荐(0)
摘要: 今天继续学习sparksql,他们在idea中操作spark,我就去找资料学习怎么配置spark项目。这个教程网上有 最重要的一点是添加怎么样的依赖 ,这是我最后配置好的依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId 阅读全文
posted @ 2022-02-18 15:07 不咬牙 阅读(79) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 47 下一页