08 2020 档案
摘要:规约Combiner 概念 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次 合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一 combiner 是 MR 程序中 Ma
阅读全文
摘要:MapReduce 中的计数器 计数器介绍 计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助 诊断系统故障。如果需要将日志信息传输到 map 或 reduce 任务, 更好的方法通常是看能否 用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言,使用计数器更
阅读全文
摘要:MapReduce 分区 分区介绍: 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行 处理 例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当 中统计相同类型的数据, 就可以实现类似
阅读全文
摘要:WordCount 需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数 Step 1. 数据格式准备 创建一个新的文件 cd /export/servers vim wordcount.txt 向其中放入以下内容并保存 zhangsan helllo lisi hello wangwu h
阅读全文
摘要:MapReduce MapReduce介绍: MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心 是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的
阅读全文
摘要:HDFS 的 API 操作 配置Windows下Hadoop环境 在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题: 缺少winutils.exe Could not locate executable null \bin\winutils.exe in the ha
阅读全文
摘要:1.hdfs的高级使用命令 1.1HDFS文件限额配置 在多人共用HDFS的环境下,配置设置非常重要。特别是在Hadoop处理大量资料的环境,如 果没有配额管理,很容易把所有的空间用完造成别人无法存取。Hdfs的配额设定是针对目录 而不是针对账号,可以 让每个账号仅操作某一个目录,然后对目录设置配置
阅读全文
摘要:HDFS概述 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常 适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存 储文件, 并且提供统一的访问接
阅读全文
摘要:这里操作Zookeeper的JavaAPI使用的是一套zookeeper客户端框架 Curator ,解决了很多 Zookeeper客户端非常底层的细节开发工作 Curator包含了几个包: curator-framework:对zookeeper的底层api的一些封装 curator-recipe
阅读全文
摘要:前一篇大体介绍了什么是zookeeper,以及其特点,下面回顾一下zookeeper的客户端操作,先用finalshell远程连接Linux主机(node01)。 1.进行客户端操作之前首先要明确zookeeper的数据模型: 1.1ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,
阅读全文
摘要:ZooKeeper是大数据学习最重要的框架之一。 1.什么是zookeeper Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的 一致性问题和数据管理问题。 Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,功能和数据库类似。 2.zookee
阅读全文
摘要:集群的搭建和后期运行离不开俩个很重要的辅助工具1.jdk 2.mysql jdk的安装: 1.要查看Linux自带的jdk并且要将他们全部卸载(通过管道命令来查看:rpm -qa | grep java 用rpm命令来卸载自带jdk) 2.创建jdk的安装目录,并且用rz -E命令来把jdk压缩包上
阅读全文
摘要:前几天将大数据基础(集群搭建,Zookeeper,hdfs,zookeeper和HDFS的javaAPI操作,MapReduce)学习完了,今天用写博客的方式回顾一下学到的知识,先回顾集群的搭建: 集群的搭建大致有以下几个步骤: 1.在VMware虚拟网卡下配置好网关,IP和DNS,并且确保wind
阅读全文
摘要:要想学习大数据那么Linux的相关知识是必不可少的,上周我进行了Linux的基础学习,SQL学习和kettle的学习,这些都是大数据起步的知识。 学习Linux要知道他的文件目录结构,在Linux中一切都是文件。 而且一些目录有特定的功能 学习完目录结构就是Linux最重要,最基础的终端命令了 格式
阅读全文
摘要:1.先找到百度热搜风云榜。 2.需要插件selenium,这个插件使用起来非常方便,可以模拟打开浏览器,找到数据的位置。 使用的时候要导入 from selenium.webdriver import Chrome,ChromeOptions 还需要下载一个谷歌驱动,在创建浏览器对象的时候要指明驱动
阅读全文
摘要:上周主要学习了Python的相关知识 1.Python基础知识 2.基于Python的爬虫有关知识 并且综合实战自己完成了一套中国疫情的监控系统,其中涉及的知识面还是很多的: 1.Python的基本语法:字符串切片,元组定义,列表定义,字典定义,列表和字典的遍历,还有俩个列表合并为一个字典等等 2.
阅读全文

浙公网安备 33010602011771号