Hadoop - 随笔分类(第3页) - 扎心了，老铁

Python学习之路（三）爬虫（二）

摘要：通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）工作阅读全文

posted @ 2018-03-28 18:26 扎心了，老铁阅读(2001) 评论(0) 推荐(0)

Python学习之路（二）爬虫（一）

摘要：Python基础基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一、"大数据时代"，数据获取的方式 1. 企业生产的用户数据：大型互联网公司有海量用户，所以他们积累数据有天然的优势。有数据意识的中小型企业，也开始积累的数据。 2. 数据管理咨询公司：通常这样阅读全文

posted @ 2018-03-28 18:24 扎心了，老铁阅读(2524) 评论(0) 推荐(0)

Python学习之路（一）开发环境搭建

摘要：前言 python3应该是Python的趋势所在，当然目前争议也比较大，这篇随笔的主要目的是记录在centos6.7下搭建python3环境的过程以及碰到的问题和解决过程。另外，如果本机安装了python2，尽量不要管他，使用python3运行python脚本就好，因为可能有程序依赖目前的pyt 阅读全文

posted @ 2018-03-28 18:22 扎心了，老铁阅读(4826) 评论(1) 推荐(0)

ZooKeeper学习之路（十一）ZooKeeper API的应用

摘要：。。。阅读全文

posted @ 2018-03-28 18:20 扎心了，老铁阅读(3036) 评论(4) 推荐(0)

ZooKeeper学习之路（十）Hadoop的HA集群的机架感知

摘要：一、背景 Hadoop 的设计目的：解决海量大文件的处理问题，主要指大数据的存储和计算问题，其中， HDFS 解决数据的存储问题；MapReduce 解决数据的计算问题 Hadoop 的设计考虑：设计分布式的存储和计算解决方案架构在廉价的集群之上，所以，服务器节点出现宕机的情况是常态。数据的安全是阅读全文

posted @ 2018-03-24 16:56 扎心了，老铁阅读(5074) 评论(0) 推荐(0)

ZooKeeper学习之路（九）利用ZooKeeper搭建Hadoop的HA集群

摘要：Hadoop HA 原理概述为什么会有 hadoop HA 机制呢？ HA：High Available，高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群阅读全文

posted @ 2018-03-24 16:21 扎心了，老铁阅读(39854) 评论(6) 推荐(6)

ZooKeeper学习之路（八）ZooKeeper原理解析

摘要：ZooKeeper中的各种角色 ZooKeeper与客户端每个Server在工作过程中有三种状态： LOOKING：当前Server不知道leader是谁，正在搜寻 LEADING：当前Server即为选举出来的leader FOLLOWING：leader已经选举出来，当前Server与之同步阅读全文

posted @ 2018-03-24 16:20 扎心了，老铁阅读(19633) 评论(0) 推荐(5)

ZooKeeper学习之路（七）ZooKeeper设计特点及典型应用场景

摘要：ZooKeeper 特点/设计目的 ZooKeeper 作为一个集群提供数据一致的协调服务，自然，最好的方式就是在整个集群中的各服务节点进行数据的复制和同步。数据复制的好处 1、容错：一个节点出错，不至于让整个集群无法提供服务 2、扩展性：通过增加服务器节点能提高 ZooKeeper 系统的负载阅读全文

posted @ 2018-03-24 16:18 扎心了，老铁阅读(7022) 评论(0) 推荐(0)

ZooKeeper学习之路（六）ZooKeeper API的简单使用（二）级联删除与创建

摘要：编程思维训练 1、级联查看某节点下所有节点及节点值 2、删除一个节点，不管有有没有任何子节点 3、级联创建任意节点 4、清空子节点 ZKTest.java ZKUtil.java 阅读全文

posted @ 2018-03-24 16:16 扎心了，老铁阅读(7144) 评论(0) 推荐(1)

ZooKeeper学习之路（五）ZooKeeper API的简单使用增删改查

摘要：zookeeper文件系统的增删改查监听设置输出结果阅读全文

posted @ 2018-03-24 16:14 扎心了，老铁阅读(6501) 评论(0) 推荐(2)

ZooKeeper学习之路（四）ZooKeeper开发环境eclipse配置

摘要：一、eclipse中配置zookeeper开发环境 1）将zookeeper eclipse plugin中的6个jar包放到eclipse安装目录下的plugins文件中，重启eclipse (2) 在 Eclipse 菜单打开Window->Show View->Other…->ZooKeepe 阅读全文

posted @ 2018-03-24 16:13 扎心了，老铁阅读(10735) 评论(0) 推荐(1)

Zookeeper学习之路（三）shell操作

摘要：Zookeeper的shell操作 Zookeeper命令工具在启动Zookeeper服务之后，输入以下命令，连接到Zookeeper服务： 1 [hadoop@hadoop1 ~]$ zkCli.sh -server hadoop2:2181 2 Connecting to hadoop2:21 阅读全文

posted @ 2018-03-24 16:12 扎心了，老铁阅读(10978) 评论(0) 推荐(1)

Zookeeper学习之路（二）集群搭建

摘要：ZooKeeper 软件安装须知鉴于 ZooKeeper 本身的特点，服务器集群的节点数推荐设置为奇数台。我这里我规划为三台，为别为 hadoop1,hadoop2,hadoop3 ZooKeeper 的集群安装 ZooKeeper 的下载下载地址：http://mirrors.hust.ed 阅读全文

posted @ 2018-03-24 16:11 扎心了，老铁阅读(21456) 评论(5) 推荐(4)

Zookeeper学习之路（一）初识

摘要：本文引用自 http://www.cnblogs.com/sunddenly/p/4033574.html 引言 Hadoop 集群当中 N 多的配置信息如何做到全局一致并且单点修改迅速响应到整个集群？配置管理 Hadoop 集群中的 namonode 和 resourcemanager 的单点故阅读全文

posted @ 2018-03-24 16:10 扎心了，老铁阅读(19235) 评论(7) 推荐(15)

Hadoop学习之路（二十八）MapReduce的API使用（五）

摘要：求所有两两用户之间的共同好友数据格式以上是数据：A:B,C,D,F,E,O表示：B,C,D,E,F,O是A用户的好友。第一阶段输出结果 1 A F,I,O,K,G,D,C,H,B 2 B E,J,F,A 3 C B,E,K,A,H,G,F 4 D H,C,G,F,E,A,K,L 5 E A,B 阅读全文

posted @ 2018-03-24 16:08 扎心了，老铁阅读(4163) 评论(1) 推荐(0)

Hadoop学习之路（二十七）MapReduce的API使用（四）

摘要：第一题下面是三种商品的销售数据要求：根据以上数据，用 MapReduce 统计出如下数据： 1、每种商品的销售总金额，并降序排序 2、每种商品销售额最多的三周第二题：MapReduce 题现有如下数据文件需要处理: 格式：CSV 数据样例： user_a,location_a,2018-01 阅读全文

posted @ 2018-03-24 16:06 扎心了，老铁阅读(2888) 评论(1) 推荐(0)

Hadoop学习之路（二十六）MapReduce的API使用（三）

摘要：影评案例数据及需求数据格式 movies.dat 3884条数据 users.dat 6041条数据 ratings.dat 1000210条数据数据解释 1、users.dat 数据格式为： 2::M::56::16::70072对应字段为：UserID BigInt, Gender Str 阅读全文

posted @ 2018-03-24 16:01 扎心了，老铁阅读(3295) 评论(3) 推荐(0)

Hadoop学习之路（二十五）MapReduce的API使用（二）

摘要：学生成绩增强版数据信息 1 computer,huangxiaoming,85,86,41,75,93,42,85 2 computer,xuzheng,54,52,86,91,42 3 computer,huangbo,85,42,96,38 4 english,zhaobenshan,54, 阅读全文

posted @ 2018-03-24 16:00 扎心了，老铁阅读(3686) 评论(4) 推荐(0)

Hadoop学习之路（二十四）YARN的资源调度

摘要：YARN 1.1、YARN 概述 YARN（Yet Another Resource Negotiator） YARN 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Had 阅读全文

posted @ 2018-03-24 15:59 扎心了，老铁阅读(16527) 评论(2) 推荐(2)

Hadoop学习之路（二十三）MapReduce中的shuffle详解

摘要：概述 1、MapReduce 中，mapper 阶段处理的数据如何传递给 reducer 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle 2、Shuffle: 数据混洗 ——（核心机制：数据分区，排序，局部聚合，缓存，拉取，再合并排序） 3、具体来说：就是将阅读全文

posted @ 2018-03-24 15:38 扎心了，老铁阅读(13497) 评论(3) 推荐(3)

扎心了，老铁

随笔分类 - Hadoop

公告