随笔分类 - Hadoop网课笔记
http://study.163.com/course/courseMain.htm?courseId=1003003001
摘要:课程链接:Hadoop大数据平台架构与实践--基础篇 计算文件中出现每个单词的频数,输入结果按照字母顺序进行排序 Map过程(切分,中间结果:Key-Value) Reduce过程(合并、归约后经过Hash,所有单词放在同一个结点) 步骤: WordCount.java 案例:利用MapReduce
阅读全文
摘要:课程链接:Hadoop大数据平台架构与实践--基础篇 1.MapReduce原理 分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce) 问题1:1000副扑克牌少哪一张牌(去掉大小王) 问题2:100GB的网站访问日志文件,找出访问次数最多的IP地址 2.MapRe
阅读全文
摘要:课程链接:Hadoop大数据平台架构与实践--基础篇 1.HDFS基本概念 HDFS设计架构 块(Block)文件被切分成块进行存储,默认大小为64MB,块是文件存储处理的逻辑单元(备份、查找) NameNode是管理节点,存放文件元数据 客户查询一个访问请求,那么会向上NameNode去查询元数据
阅读全文
摘要:在Java8中特别提到了流式计算,在流式计算中就有MapReduce概念。 如果要想使用Hadoop的MapReduce,则必须将要进行统计的文件内容保存在HDFS之中。 下面通过代码来实现一个单词统计的操作,单词统计也被称为Hadoop界的“Hello World”程序。 在给出的文件之中会包含具
阅读全文
摘要:Hadoop是基于分布式的系统应用,但很多时候我们只是进行简单的测试,没有必要做集群。所谓的伪分布式本质上就是进行单机版的Hadoop配置。 1.在Hadoop中不允许IP地址变更,所以要保证从项目的开发到运行结束状态,都要求IP地址是同一个,如果变更了就要重头来过 (编辑-虚拟网络编辑器) 2.为
阅读全文
摘要:JDK的安装与配置 本块内容的截图演示均为jdk-10.0.1,但在后续过程中发现jdk版本过高,与我下载的hadoop版本不匹配,所以回退版本至jdk-8u171-linux-x64.tar,但截图中没有体现 1.将JDK的安装包上传Linux系统(JDK下载地址) 如果没有开发包,可使用wget
阅读全文
摘要:Linux环境配置 1.环境属性-字体配置 $sudo dpkg-reconfigure console-setup 先选择utf-8 2.解锁root用户 $sudo passwd root $sudo su 切换root用户 3.关闭防火墙并卸载iptables服务 #ufw disable F
阅读全文

浙公网安备 33010602011771号