摘要: 说实话,wordcount这个案例挺土的,但是作为入门案例,还是值得学习的,本篇就通过MapReduce来对词频进行一个统计分析,并写出核心代码。 一:案例介绍: Input : 读取文本文件; Splitting : 将文件按照文件块(block)或者行进行拆分,此时得到的K1为偏移量,V1表示对 阅读全文
posted @ 2023-12-19 12:26 田攀攀的博客 阅读(643) 评论(0) 推荐(0)
摘要: MapReduce也是Hadoop里的核心内容,非常著名,五星级必须要掌握哦,本篇文章就先抛砖引玉,对MapReduce做一个基本介绍。 到底什么是MapReduce Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行 阅读全文
posted @ 2023-12-19 11:51 田攀攀的博客 阅读(55) 评论(0) 推荐(0)
摘要: HDFS的命令行操作很多,但是常用的也就那么几个,现在就总结一下吧: HDFS的常用命令: hadoop fs -ls / 查看hdfs根目录hadoop fs -put 源文件 目标地址 将本地文件存储到hdfs目标地址hadoop fs -cp 源 目标 拷贝源到目标hadoop fs -cop 阅读全文
posted @ 2023-12-19 11:25 田攀攀的博客 阅读(87) 评论(0) 推荐(0)
摘要: HDFS作为Hadoop的核心知识,是必须要掌握的,写这篇文章就是总结出HDFS的最核心知识点,那就开始吧! 一:什么是HDFS Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。HDFS 有着高容错性(fault-tolerent)的特点,并且设计 阅读全文
posted @ 2023-12-19 11:22 田攀攀的博客 阅读(43) 评论(0) 推荐(0)