会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
lingluo2017
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
4
5
6
7
8
9
10
下一页
2018年3月10日
大数据笔记(十一)——倒排索引
摘要: 一.介绍及数据准备 把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。 参考博客:https://www.cnblogs.com/zlslch/p/6440114.html 1.建立一个文件夹 2.在文件夹下建立三个文件,准备数据:
阅读全文
posted @ 2018-03-10 15:14 梦里南柯
阅读(566)
评论(0)
推荐(0)
2018年3月5日
大数据笔记(十)——Shuffle与MapReduce编程案例(A)
摘要: 一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上,nodemanager运行mapreduce程序的方式就是shuffl
阅读全文
posted @ 2018-03-05 00:20 梦里南柯
阅读(468)
评论(0)
推荐(0)
2018年3月3日
大数据笔记(九)——Mapreduce的高级特性(B)
摘要: 二.排序 对象排序 员工数据 Employee.java > 作为key2输出 需求:按照部门和薪水升序排列 Employee.java EmployeeSortMapper.java EmployeeSortMain.java 结果: 三.分区分区:Partition: 根据Map的输出(k2 v
阅读全文
posted @ 2018-03-03 23:36 梦里南柯
阅读(243)
评论(0)
推荐(0)
2018年3月1日
大数据笔记(八)——Mapreduce的高级特性(A)
摘要: 一.序列化 类似于Java的序列化:将对象——>文件 如果一个类实现了Serializable接口,这个类的对象就可以输出为文件 同理,如果一个类实现了的Hadoop的序列化机制(接口:Writable),这个类的对象就可以作为输入和输出的值 例子:使用序列化 求每个部门的工资总额 数据:在map阶
阅读全文
posted @ 2018-03-01 22:19 梦里南柯
阅读(474)
评论(0)
推荐(0)
大数据笔记(七)——Mapreduce程序的开发
摘要: 一.分析Mapreduce程序开发的流程 1.图示过程 输入:HDFS文件 /input/data.txt Mapper阶段: K1:数据偏移量(以单词记)V1:行数据 K2:单词 V2:记一次数 Reducer阶段 : K3:单词(=K2) V3:V2计数的集合 K4:单词 V4:V3集合中元素累
阅读全文
posted @ 2018-03-01 00:14 梦里南柯
阅读(309)
评论(0)
推荐(0)
2018年2月28日
大数据笔记(六)——HDFS的底层原理:JAVA动态代理和RPC
摘要: 一、Java的动态代理对象 实现代码如下: 1.接口类MyService 2.接口实现类MyServiceImpl 3.测试类TestMain console: 二、RPC:远程过程调用 1.服务端:发布一个接口(MyBusiness)到RPC Server上 实现类:MyBusinessImpl
阅读全文
posted @ 2018-02-28 00:06 梦里南柯
阅读(291)
评论(0)
推荐(0)
2018年2月26日
大数据笔记(五)——HDFS的高级特性
摘要: 一.HDFS的回收站: recyclebin 1.HDFS的回收站默认是关闭的 2.启用回收站:去core-site.xml配置 路径:/root/training/hadoop-2.7.3/etc/hadoop 3.配置完成后删除目录 hdfs dfs -rmr /folder1 日志: 本质:删
阅读全文
posted @ 2018-02-26 23:50 梦里南柯
阅读(362)
评论(0)
推荐(0)
大数据笔记(四)——操作HDFS
摘要: 一.Web Console:端口50070 二.HDFS的命令行操作 (一)普通操作命令 HDFS 操作命令帮助信息: hdfs dfs + Enter键 常见命令 1. -mkdir 在HDFS上创建目录:hdfs dfs -mkdir /aaa 如果父目录不存在,使用 -p 命令先创建父目录:
阅读全文
posted @ 2018-02-26 00:30 梦里南柯
阅读(549)
评论(0)
推荐(0)
2018年2月21日
大数据笔记(三)——Hadoop2.0的安装与配置
摘要: 一.Hadoop安装部署的预备条件 准备:1、安装Linux和JDK。 安装JDK 2、关闭防火墙 3、配置主机名 输入:vi /etc/hosts,回车 解压hadoop:tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/ 设置环境变量:vi ~/.bash_
阅读全文
posted @ 2018-02-21 23:08 梦里南柯
阅读(616)
评论(0)
推荐(0)
2018年2月20日
大数据笔记(二)——Apache Hadoop的体系结构
摘要: 一.分布式存储 NameNode(名称节点) 1.维护HDFS文件系统,是HDFS的主节点。 2.接收客户端的请求:上传、下载文件、创建目录等。 3.记录客户端操作的日志(edits文件),保存了HDFS最新的状态 1)Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增
阅读全文
posted @ 2018-02-20 23:32 梦里南柯
阅读(372)
评论(0)
推荐(1)
上一页
1
···
4
5
6
7
8
9
10
下一页
公告