喜欢爬的孩子

2020年9月25日

摘要：一。本文转自：https://blog.csdn.net/qq_32846595/article/details/71149312 喜欢的同学可以看一下原文，讲得更加详细哦原文地址：http://www.cnblogs.com/cxk1995/p/5800196.html 首先你需要一个githu 阅读全文

posted @ 2020-09-25 23:04 喜欢爬的孩子阅读(244) 评论(0) 推荐(0)

2020年9月9日

随机数的生成，静态导入，可变参数的方法，方法重载，浮点数的比较

摘要：一，随机数产生方法 ①最小值+Math.random() *（最大值-最小值+1）：产生的数的范围在 [最小值，最大值] package com.java1;import javax.swing.JOptionPane; public class RandomInt { public static 阅读全文

posted @ 2020-09-09 15:51 喜欢爬的孩子阅读(227) 评论(0) 推荐(0)

2020年8月28日

zookeeper学习2

摘要：一、zNode节点属性 dataVersion 数据版本, 每次当 Znode 中的数据发生变化的时候, dataVersion都会自增一下cversion 节点版本, 每次当 Znode 的节点发生变化的时候, cversion 都会自增aclVersion ACL(Access Control 阅读全文

posted @ 2020-08-28 12:10 喜欢爬的孩子阅读(137) 评论(0) 推荐(0)

2020年8月25日

关于zookeeper的相关学习

摘要：一、zookeeper理解与选举机制 ①Zookeeper理解概念：Zookeeper 是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题特点：Zookeeper 本质上是一个分布式文件系统, 适合存放小文件，也可以理解为一个数据库。 Zookeeper 阅读全文

posted @ 2020-08-25 21:05 喜欢爬的孩子阅读(168) 评论(0) 推荐(0)

2020年8月24日

20年暑假第四周周总结

摘要：这一周自己大约一共发了3篇博客：这一周主要学习的是Combiner+GroupingComparator+shuffle原理+Reduce原理MapReduce全流程_分区_排序 MapReduce任务提交和切片源码+各种inputFormat以及自定义inputFormat+自定义inputFo 阅读全文

posted @ 2020-08-24 21:03 喜欢爬的孩子阅读(158) 评论(0) 推荐(0)

Combiner+GroupingComparator+shuffle原理+Reduce原理

摘要： 1、Combiner Combiner的输入输出对象必须一样。 2、GroupingComparator 运行代码： map package groupcompartor; import org.apache.hadoop.io.LongWritable; import org.apache.had 阅读全文

posted @ 2020-08-24 20:59 喜欢爬的孩子阅读(220) 评论(0) 推荐(0)

2020年8月19日

MapReduce全流程_分区_排序

摘要： 1、MapReduce完成的工作流程： 2、分区操作（Partition分区） Partition分区案例实操 1．需求将统计结果按照手机归属地不同省份输出到不同文件中（分区）期望输出数据手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。代码如下：阅读全文

posted @ 2020-08-19 15:33 喜欢爬的孩子阅读(509) 评论(0) 推荐(0)

2020年8月18日

MapReduce任务提交和切片源码+各种inputFormat以及自定义inputFormat+自定义inputFormat代码实现

摘要： 1、MapReduce任务提交和切片源码 debug能力（怎样使用）： 2、各种inputFormat以及自定inputFormat 自定义inputFormat代码实现之后就是自定义的inputformat 无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文阅读全文

posted @ 2020-08-18 19:39 喜欢爬的孩子阅读(176) 评论(0) 推荐(0)

20年暑假第三周周总结

摘要：这一周自己大约一共发了10篇博客：有一个是爬虫项目的实战，爬取的是豆瓣影院的相关电影信息。然后其余的博客就是和大数据相关的的了。主要会HDFS和MapReduce。简单的了解了api的操作hdsf的基本流程。配置了虚拟机的hadoop环境。成功运行了maven项目，实现了项目文件上传，以及通过阅读全文

posted @ 2020-08-18 09:15 喜欢爬的孩子阅读(102) 评论(0) 推荐(0)

2020年8月17日

wordcount打包在集群上运行+hadoop序列化+MapReduce并行度决定机制

摘要： 1、wordcount打包在集群上运行点击idea右侧的mavenproject 成功之后：然后重命名为1.jar上传到我们的linux集群中之后在linux中运行刚刚上传的jar文件之后就会成功运行了。 2、hadoop序列化首先神魔是序列化：序列化就是把内存中的对象，转换成字节序列( 阅读全文

posted @ 2020-08-17 20:55 喜欢爬的孩子阅读(310) 评论(0) 推荐(0)

悄悄成长

公告