随笔分类 -  Hadoop

摘要:通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 阅读全文
posted @ 2018-03-28 18:26 扎心了,老铁 阅读(1933) 评论(0) 推荐(0) 编辑
摘要:Python基础 基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样 阅读全文
posted @ 2018-03-28 18:24 扎心了,老铁 阅读(2456) 评论(0) 推荐(0) 编辑
摘要:前言 python3应该是Python的趋势所在,当然目前争议也比较大,这篇随笔的主要目的是记录在centos6.7下搭建python3环境的过程 以及碰到的问题和解决过程。 另外,如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的pyt 阅读全文
posted @ 2018-03-28 18:22 扎心了,老铁 阅读(4695) 评论(1) 推荐(0) 编辑
摘要:。。。 阅读全文
posted @ 2018-03-28 18:20 扎心了,老铁 阅读(2999) 评论(4) 推荐(0) 编辑
摘要:一、背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中, HDFS 解决数据的存储问题;MapReduce 解决数据的计算问题 Hadoop 的设计考虑:设计分布式的存储和计算解决方案架构在廉价的集群之上,所以,服 务器节点出现宕机的情况是常态。数据的安全是 阅读全文
posted @ 2018-03-24 16:56 扎心了,老铁 阅读(4978) 评论(0) 推荐(0) 编辑
摘要:Hadoop HA 原理概述 为什么会有 hadoop HA 机制呢? HA:High Available,高可用 在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SPOF:A Single Point of Failure)。 对于只有一个 NameNode 的集群 阅读全文
posted @ 2018-03-24 16:21 扎心了,老铁 阅读(39114) 评论(6) 推荐(6) 编辑
摘要:ZooKeeper中的各种角色 ZooKeeper与客户端 每个Server在工作过程中有三种状态: LOOKING:当前Server不知道leader是谁,正在搜寻 LEADING:当前Server即为选举出来的leader FOLLOWING:leader已经选举出来,当前Server与之同步 阅读全文
posted @ 2018-03-24 16:20 扎心了,老铁 阅读(19462) 评论(0) 推荐(5) 编辑
摘要:ZooKeeper 特点/设计目的 ZooKeeper 作为一个集群提供数据一致的协调服务,自然,最好的方式就是在整个集群中的 各服务节点进行数据的复制和同步。 数据复制的好处 1、容错:一个节点出错,不至于让整个集群无法提供服务 2、扩展性:通过增加服务器节点能提高 ZooKeeper 系统的负载 阅读全文
posted @ 2018-03-24 16:18 扎心了,老铁 阅读(6928) 评论(0) 推荐(0) 编辑
摘要:编程思维训练 1、级联查看某节点下所有节点及节点值 2、删除一个节点,不管有有没有任何子节点 3、级联创建任意节点 4、清空子节点 ZKTest.java ZKUtil.java 阅读全文
posted @ 2018-03-24 16:16 扎心了,老铁 阅读(7083) 评论(0) 推荐(1) 编辑
摘要:zookeeper文件系统的增删改查 监听设置 输出结果 阅读全文
posted @ 2018-03-24 16:14 扎心了,老铁 阅读(6458) 评论(0) 推荐(2) 编辑
摘要:一、eclipse中配置zookeeper开发环境 1)将zookeeper eclipse plugin中的6个jar包放到eclipse安装目录下的plugins文件中,重启eclipse (2) 在 Eclipse 菜单打开Window->Show View->Other…->ZooKeepe 阅读全文
posted @ 2018-03-24 16:13 扎心了,老铁 阅读(10604) 评论(0) 推荐(1) 编辑
摘要:Zookeeper的shell操作 Zookeeper命令工具 在启动Zookeeper服务之后,输入以下命令,连接到Zookeeper服务: 1 [hadoop@hadoop1 ~]$ zkCli.sh -server hadoop2:2181 2 Connecting to hadoop2:21 阅读全文
posted @ 2018-03-24 16:12 扎心了,老铁 阅读(10878) 评论(0) 推荐(1) 编辑
摘要:ZooKeeper 软件安装须知 鉴于 ZooKeeper 本身的特点,服务器集群的节点数推荐设置为奇数台。我这里我规划为三台, 为别为 hadoop1,hadoop2,hadoop3 ZooKeeper 的集群安装 ZooKeeper 的下载 下载地址:http://mirrors.hust.ed 阅读全文
posted @ 2018-03-24 16:11 扎心了,老铁 阅读(21224) 评论(5) 推荐(4) 编辑
摘要:本文引用自 http://www.cnblogs.com/sunddenly/p/4033574.html 引言 Hadoop 集群当中 N 多的配置信息如何做到全局一致并且单点修改迅速响应到整个集群? 配置管理 Hadoop 集群中的 namonode 和 resourcemanager 的单点故 阅读全文
posted @ 2018-03-24 16:10 扎心了,老铁 阅读(19081) 评论(7) 推荐(15) 编辑
摘要:求所有两两用户之间的共同好友 数据格式 以上是数据:A:B,C,D,F,E,O表示:B,C,D,E,F,O是A用户的好友。 第一阶段输出结果 1 A F,I,O,K,G,D,C,H,B 2 B E,J,F,A 3 C B,E,K,A,H,G,F 4 D H,C,G,F,E,A,K,L 5 E A,B 阅读全文
posted @ 2018-03-24 16:08 扎心了,老铁 阅读(4122) 评论(1) 推荐(0) 编辑
摘要:第一题 下面是三种商品的销售数据 要求:根据以上数据,用 MapReduce 统计出如下数据: 1、每种商品的销售总金额,并降序排序 2、每种商品销售额最多的三周 第二题:MapReduce 题 现有如下数据文件需要处理: 格式:CSV 数据样例: user_a,location_a,2018-01 阅读全文
posted @ 2018-03-24 16:06 扎心了,老铁 阅读(2833) 评论(1) 推荐(0) 编辑
摘要:影评案例 数据及需求 数据格式 movies.dat 3884条数据 users.dat 6041条数据 ratings.dat 1000210条数据 数据解释 1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender Str 阅读全文
posted @ 2018-03-24 16:01 扎心了,老铁 阅读(3206) 评论(3) 推荐(0) 编辑
摘要:学生成绩 增强版 数据信息 1 computer,huangxiaoming,85,86,41,75,93,42,85 2 computer,xuzheng,54,52,86,91,42 3 computer,huangbo,85,42,96,38 4 english,zhaobenshan,54, 阅读全文
posted @ 2018-03-24 16:00 扎心了,老铁 阅读(3626) 评论(4) 推荐(0) 编辑
摘要:YARN 1.1、YARN 概述 YARN(Yet Another Resource Negotiator) YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Had 阅读全文
posted @ 2018-03-24 15:59 扎心了,老铁 阅读(16276) 评论(2) 推荐(2) 编辑
摘要:概述 1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle 2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并 排序) 3、具体来说:就是将 阅读全文
posted @ 2018-03-24 15:38 扎心了,老铁 阅读(13129) 评论(3) 推荐(2) 编辑