大数据 - 随笔分类 - cutter_point

【mapreudce】6.对Nginx的access日志进行数据清洗，我们提取出文件数据的ip，时间，url

摘要：1.首先我们需要一个util辅助类 2.map类 3.reduce类 4.启动类数据源：我们文件原始数据格式展示我们清洗之后数据展示展示数据阅读全文

posted @ 2019-05-17 17:35 cutter_point 阅读(385) 评论(0) 推荐(0)

摘要：设置我们的flume配置信息这个脚本配置好，设置启动命令,使用nohup是为了之后采集器自己后期自动运行 nohup flume-ng --conf hadoop/flume/conf -f hadoop/flume/conf/flume-conf.properties -n agent1 -Df 阅读全文

posted @ 2019-05-15 14:51 cutter_point 阅读(280) 评论(0) 推荐(0)

【zookeeper】4、利用zookeeper，借助观察模式，判断服务器的上下线

摘要：首先什么是观察者模式，可以看看我之前的设计模式的文章 https://www.cnblogs.com/cutter-point/p/5249780.html 确定一下，要有观察者，要有被观察者，然后要被观察者触发事件，事件发生之后，观察者触发相应的事件发生了解了基本概念，我们来看看zookeepe 阅读全文

posted @ 2019-04-08 10:06 cutter_point 阅读(1029) 评论(0) 推荐(0)

【Hadoop】3、Hadoop-MapReduce使用avro进行数据的序列化与反序列化

摘要：通过avro输出数据，我们的数据集是：结果使用avro-tool进行查看： H:\>java -jar avro-tools-1.8.2.jar tojson H:\ideaworkspace\1-tmp\output1\part-r-00000.avro 阅读全文

posted @ 2019-02-18 17:42 cutter_point 阅读(704) 评论(0) 推荐(0)

【Hadoop】2、Hadoop高可用集群部署

摘要：1.服务器设置集群规划 Namenode-Hadoop管理节点 10.25.24.92 10.25.24.93 Datanode-Hadoop数据存储节点 10.25.24.89 10.25.24.90 10.25.24.91 Zookeeper—高可用推举机制 1- 标识需要安装 NN-name 阅读全文

posted @ 2019-01-11 15:42 cutter_point 阅读(547) 评论(0) 推荐(0)

【hadoop】1、MapReduce进行日志分析，并排序统计结果

摘要：1.网上很多关于搭建Hadoop集群的知识，这里不多做叙述，并且本机运行Hadoop程序是不需要hdfs集群的，我们本机运行只做个demo样式，当真的需要运行大数据的时候，才需要真正的集群 2.还有就是词频统计的知识，不论是官方文档，还是网上的知识，基本都能随意百度个几百篇出来但是我找半天，确实是阅读全文

posted @ 2018-12-16 21:30 cutter_point 阅读(1608) 评论(0) 推荐(0)

cutter_point

随笔分类 - 大数据

公告