随笔分类 -  大数据

学习一波大数据
摘要:1.首先我们需要一个util辅助类 2.map类 3.reduce类 4.启动类 数据源: 我们文件原始数据格式展示 我们清洗之后数据展示 展示数据 阅读全文
posted @ 2019-05-17 17:35 cutter_point 阅读(385) 评论(0) 推荐(0)
摘要:设置我们的flume配置信息 这个脚本配置好,设置启动命令,使用nohup是为了之后采集器自己后期自动运行 nohup flume-ng --conf hadoop/flume/conf -f hadoop/flume/conf/flume-conf.properties -n agent1 -Df 阅读全文
posted @ 2019-05-15 14:51 cutter_point 阅读(280) 评论(0) 推荐(0)
摘要:首先什么是观察者模式,可以看看我之前的设计模式的文章 https://www.cnblogs.com/cutter-point/p/5249780.html 确定一下,要有观察者,要有被观察者,然后要被观察者触发事件,事件发生之后,观察者触发相应的事件发生 了解了基本概念,我们来看看zookeepe 阅读全文
posted @ 2019-04-08 10:06 cutter_point 阅读(1029) 评论(0) 推荐(0)
摘要:通过avro输出数据,我们的数据集是: 结果使用avro-tool进行查看: H:\>java -jar avro-tools-1.8.2.jar tojson H:\ideaworkspace\1-tmp\output1\part-r-00000.avro 阅读全文
posted @ 2019-02-18 17:42 cutter_point 阅读(704) 评论(0) 推荐(0)
摘要:1.服务器设置 集群规划 Namenode-Hadoop管理节点 10.25.24.92 10.25.24.93 Datanode-Hadoop数据存储节点 10.25.24.89 10.25.24.90 10.25.24.91 Zookeeper—高可用推举机制 1- 标识需要安装 NN-name 阅读全文
posted @ 2019-01-11 15:42 cutter_point 阅读(547) 评论(0) 推荐(0)
摘要:1.网上很多关于搭建Hadoop集群的知识,这里不多做叙述,并且本机运行Hadoop程序是不需要hdfs集群的,我们本机运行只做个demo样式,当真的需要运行大数据的时候,才需要真正的集群 2.还有就是词频统计的知识,不论是官方文档,还是网上的知识,基本都能随意百度个几百篇出来 但是我找半天,确实是 阅读全文
posted @ 2018-12-16 21:30 cutter_point 阅读(1608) 评论(0) 推荐(0)