随笔分类 - 大数据
摘要:## 一、任务目标 针对一个文本的内容,提取其中的所有单词并去重 文本去重前  去重后  ## 二、问题分析 之前都是写完程序后直接打包到集群上运行的,这样确实有点
阅读全文
摘要:## 一、MapReduce介绍 MapReduce是一个`分布式计算框架`,可以部署在Hadoop、Spark等大数据平台上,实现海量数据的并行计算。它采用“`分而治之`”的思想,将一个计算任务交给集群中的多台机器共同完成,之后再汇总成最终结果。 一般来说读取一个TB,PB级的文件,普通计算机的速
阅读全文
摘要:## 一、集群描述 主机:CentOS7.8 jdk1.8 hadoop、hive、hbase、zookeeper:CDH5.14.2 ||namenode|datanode1|datanode2| |--|--|-|-| |NameNode|✔(主)|✔(备)|✘| |DataNode|✔|✔|✔
阅读全文
摘要:本文参考:[数据酷客](http://cookdata.cn/course/course_introduction/17/) 上个月写了一篇[Hive数据仓库基本操作](https://blog.csdn.net/pineapple_C/article/details/104985154)过了这么长
阅读全文
摘要:为了加深一下Hive操作的印象,也为了方便以后的学习,罗列一下Hive的基本操作。 一、Hive基本操作 1.在Linux本地新建/data/hive目录: mkdir -p /data/hive 2.切换到/data/hive目录下,使用ftp工具将作业附件中的stu_group.txt文件上传到
阅读全文

浙公网安备 33010602011771号