摘要: 前言 其实前面写的那一点点东西都是轻轻点水,其实HttpClient还有很多强大的功能: (1)实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等) (2)支持自动转向 (3)支持 HTTPS 协议 (4)支持代理服务器等 一、HttpClient使用代理IP 1.1、前言 在爬取 阅读全文
posted @ 2018-10-16 23:15 -草根-颜 阅读(1105) 评论(0) 推荐(0)
摘要: 一、HttpClient简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包, 并且它支持 HTTP 协议最新的版本和建议。 官方站点:http://hc.apache.org/ 最新版本 阅读全文
posted @ 2018-10-16 23:15 -草根-颜 阅读(1246) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、作业的默认配置 二、作业的配置方式 三、Mapper类和Reducer类以及它们的子类(实现类) 3.1、Mapper概述 3.2、Reducer概述 3.2、写一个实例去使用 3.1、Mapper概述 3.2、Reducer概述 3.2、写一个实例去使用 前言 前面 阅读全文
posted @ 2018-10-16 23:06 -草根-颜 阅读(823) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、Combiner概述 1.1、为什么需要Combiner 1.2、Combiner介绍 二、使用Combiner优化Mapduce执行 2.1、使用前提 2.2、怎么使用 2.3、利用Combiner计算每一年的平均气温 2.4、计算每一年每个气象站的平均温度 1.1 阅读全文
posted @ 2018-10-16 23:05 -草根-颜 阅读(579) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、统计好友对数(去重) 1.1、数据准备 1.2、需求分析 1.3、代码实现 二、词频统计 2.1、数据准备 2.2、需求分析 2.3、代码实现 2.4、 运行测试 三、成绩统计 3.1、数据准备 3.2、需求分析 3.3、代码实现 3.4、执行 四、倒排索引 4.1、 阅读全文
posted @ 2018-10-16 23:00 -草根-颜 阅读(414) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、MapReduce并行处理的基本过程 二、MapRrduce输入与输出问题 三、MapReduce实际处理流程 四、一个job的运行流程 4.1、提交作业 4.2、作业初始化 4.3、任务的分配 4.4、任务的执行 4.5、更新任务的执行进度和状态 4.6、任务完成 阅读全文
posted @ 2018-10-16 22:59 -草根-颜 阅读(744) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、写一个MapReduce程序例子 1.1、数据准备 1.2、需求分析 1.3、编写一个解析类解析天气数据 1.4、编写一个MapReduce程序求1992I年的最高温度 1.5、使用Maven打包Jar包上传到Hadoop客户端的Linux服务器中 二、分析上面Map 阅读全文
posted @ 2018-10-16 22:58 -草根-颜 阅读(408) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、背景 二、大数据的并行计算 三、Hadoop的MapReduce概述 3.1、需要MapReduce原因 3.2、MapReduce简介 3.3、MapReduce编程模型 四、编写MapReduce程序 4.1、数据样式与环境 4.2、需求分析 4.3、代码实现 3 阅读全文
posted @ 2018-10-16 22:57 -草根-颜 阅读(576) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、数据完整性概述 二、HDFS的数据完整性 2.1、本地文件上传到HDFS集群时的校验 2.2、HDFS集群文件读取到本地 三、涉及数据一致性的类:LocalFileSystem和RawFileSystem 3.1、概述 3.2、编写程序验证 2.1、本地文件上传到HD 阅读全文
posted @ 2018-10-16 22:56 -草根-颜 阅读(419) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、序列化和反序列化概述 1.1、序列化和反序列化的定义 1.2、序列化和反序列化的应用 1.3、RPC序列化格式要求 二、Hadoop中和虚序列化相关的接口和类 1.1、Hadoop对基本数据类型的包装 1.2、Writable接口 1.3、实例解释Java和Hadoo 阅读全文
posted @ 2018-10-16 22:56 -草根-颜 阅读(370) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、压缩(Compression)概述 1.1、压缩的好处 1.2、压缩格式总结 二、编解码器(Codec)概述 三、Java编程实现文件的压缩与解压缩 3.1、原理分析 3.2、相关类和方法 3.3、Java将本地文件压缩上传到集群当中 3.4、Java将集群文件解压缩 阅读全文
posted @ 2018-10-16 22:55 -草根-颜 阅读(313) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、HDFS中数据块概述 1.1、HDFS集群中数据块存放位置 1.2、数据块(data block)简介 1.3、对分布式文件系统中的块进行抽象会带来很多好处 二、Java访问HDFS中的数据块 2.1、相关类和方法介绍 2.2、编写程序访问 二、Java查看HDFS集 阅读全文
posted @ 2018-10-16 22:54 -草根-颜 阅读(1287) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、HDFS读取过程 二、HDFS的写入过程 三、通过实例说明HDFS的读写操作 3.1、写入操作 3.2、读取操作 四、图解HDFS的读取写入过程 4.1、角色出演 4.2、读取操作 3.2、写入操作 3.1、写入操作 3.2、读取操作 4.1、角色出演 4.2、读取操 阅读全文
posted @ 2018-10-16 22:53 -草根-颜 阅读(3214) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、HDFS容错机制 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1.4、读写容错 1.5、数据节点(DN)失效 二、HDFS备份规则 1.1、故障类型(三类故障) 1.2、故障检测机制 1.3、回复:心跳信息和数据块报告 1. 阅读全文
posted @ 2018-10-16 22:53 -草根-颜 阅读(734) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、Hadoop客户端配置 二、Java访问HDFS集群 2.1、HDFS的Java访问接口 2.2、Java访问HDFS主要编程步骤 2.3、使用FileSystem API读取数据文件 三、实战Java访问HDFS集群 3.1、环境介绍 3.2、查询HDFS集群文件系 阅读全文
posted @ 2018-10-16 22:52 -草根-颜 阅读(446) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、HDFS概述 1.1、HDFS概述 1.2、HDFS的概念和特性 1.3、HDFS的局限性 1.4、HDFS保证可靠性的措施 二、HDFS基本概念 2.1、HDFS主从结构体系 2.2、数据块(DataBlock) 2.3、名字节点(主节点:NameNode) 2.4 阅读全文
posted @ 2018-10-16 22:51 -草根-颜 阅读(691) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、搭建Hadoop全分布式集群前提 1.1、网络 1.2、安装jdk 1.3、安装hadoop 二、Hadoop全分布式集群搭建的配置 2.1、hadoop-env.sh 2.2、core-site.xml 2.3、hdfs-site.xml 2.4.mapred-si 阅读全文
posted @ 2018-10-16 22:50 -草根-颜 阅读(3789) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、引言(大数据时代) 1.1、从数据中得到信息 1.2、大数据表象概念 二、大数据基础 2.1、什么是大数据? 2.2、大数据的基本特征 2.3、大数据的意义 2.4、大数据的系统架构(整体架构) 2.5、大数据处理平台 2.6、大数据中的几个概念 三、Hadoop概述 阅读全文
posted @ 2018-10-16 22:49 -草根-颜 阅读(363) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、Hadoop的三种运行模式(启动模式) 1.1、单机模式(独立模式)(Local或Standalone Mode) 1.2、伪分布式模式(Pseudo-Distrubuted Mode) 1.3、全分布式集群模式(Full-Distributed Mode) 二、搭建 阅读全文
posted @ 2018-10-16 22:49 -草根-颜 阅读(1644) 评论(0) 推荐(0)
摘要: 工作中一直都是用Git作为版本控制,只是知道简单的几个命令,没有去了解它的内部原理。所以周末有时间来系统学习。 现在的公司基本上都是用Git作为版本控制,当然也有SVN的。 Git是目前世界上最先进的分布式版本控制系统。那什么是版本控制系统呢? 如果你用Microsoft Word写过长篇大论,那你 阅读全文
posted @ 2018-10-16 22:46 -草根-颜 阅读(966) 评论(0) 推荐(0)
摘要: 一、Git的工作区、暂存区和版本库之间的区别和联系 1)工作区 在PC中能看得到的创建的一个管理仓库的目录。比如目录下GitTest里的文件(.git隐藏目录版本库除外)。或者以后需要再新建的目录文件等等都属于工作区范畴。 2)版本库(repository) 工作区有一个隐藏目录.git,这个不算工 阅读全文
posted @ 2018-10-16 22:45 -草根-颜 阅读(607) 评论(0) 推荐(0)
摘要: 怎么将本地的项目放到码云或者GitHub去托管了?(以码云为例) 一、创建远程项目 第一步:点击创建项目 第二步:填写项目相关信息 第三步:复制远程的项目地址,注意:此处码云官方已经给出上传项目方法,不过用的是命令行的形式,我们选择一种更加简单的方法(使用IDEA中的VCS)。 二、创建本地的Spr 阅读全文
posted @ 2018-10-16 22:44 -草根-颜 阅读(387) 评论(0) 推荐(0)
摘要: 阅读目录(Content) 一、基本设置 1.1、关闭Intellij IDEA自动更新 1.2、隐藏.idea文件夹和.iml等文件 1.3、设置代码编辑器主题风格 1.4、文件编码设置 二、类和方法的模板注释 2.1、修改类注释模板 2.2、方法注释模板修改 2.3、代码格式化 1.1、关闭In 阅读全文
posted @ 2018-10-16 22:41 -草根-颜 阅读(4743) 评论(0) 推荐(1)
摘要: 阅读目录(Content) 一、Maven配置 1.1、Maven简介 1.2、IDEA中配置Maven 二、Maven骨架创建JavaWeb项目 2.1、IDEA和Maven创建JavaWeb过程 2.2、创建成功后的状态 2.3、启动JavaWeb项目 三、其他配置 3.1、在Tomcat中部署 阅读全文
posted @ 2018-10-16 22:40 -草根-颜 阅读(256) 评论(0) 推荐(0)