大数据 - 随笔分类 - 王舰

Hadoop 用Java编写MapReduce去重程序

摘要：## 一、任务目标针对一个文本的内容，提取其中的所有单词并去重文本去重前 ![文本](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811091738709-204887536.png) 去重后 ![去重后](https 阅读全文

posted @ 2022-04-06 15:03 王舰阅读(592) 评论(0) 推荐(0)

Hadoop 解决本地运行log4j警告，成功打印出日志信息

摘要：## 一、问题描述本地运行MapReduce程序并不能像在集群上那样输出日志信息，而且还回报log4j的警告 ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093205485-1756444 阅读全文

posted @ 2022-04-06 15:02 王舰阅读(223) 评论(0) 推荐(0)

Hadoop 解决本地运行出错Cannot initialize Cluster. Please check your configuration for mapreduce.framework...

摘要：## 一、问题描述 ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093115707-2147056981.png) ## 二、问题分析之前都是写完程序后直接打包到集群上运行的，这样确实有点阅读全文

posted @ 2022-04-06 15:02 王舰阅读(733) 评论(0) 推荐(0)

Hadoop 用Java编写MapReduce词频统计程序并提交到Hadoop集群运行

摘要：## 一、MapReduce介绍 MapReduce是一个`分布式计算框架`，可以部署在Hadoop、Spark等大数据平台上，实现海量数据的并行计算。它采用“`分而治之`”的思想，将一个计算任务交给集群中的多台机器共同完成，之后再汇总成最终结果。一般来说读取一个TB，PB级的文件，普通计算机的速阅读全文

posted @ 2022-04-06 15:00 王舰阅读(2034) 评论(0) 推荐(0)

Hadoop 完美解决start-all.sh不能启动resourcemanager的问题

摘要：## 一、集群描述主机：CentOS7.8 jdk1.8 hadoop、hive、hbase、zookeeper：CDH5.14.2 ||namenode|datanode1|datanode2| |--|--|-|-| |NameNode|✔（主）|✔（备）|✘| |DataNode|✔|✔|✔ 阅读全文

posted @ 2022-04-06 14:59 王舰阅读(9219) 评论(1) 推荐(1)

Hbase 数据库基本操作

摘要：本文参考：[数据酷客](http://cookdata.cn/course/course_introduction/17/) 上个月写了一篇[Hive数据仓库基本操作](https://blog.csdn.net/pineapple_C/article/details/104985154)过了这么长阅读全文

posted @ 2022-04-06 14:34 王舰阅读(683) 评论(0) 推荐(1)

Hive数据仓库的基本操作

摘要：为了加深一下Hive操作的印象，也为了方便以后的学习，罗列一下Hive的基本操作。一、Hive基本操作 1.在Linux本地新建/data/hive目录： mkdir -p /data/hive 2.切换到/data/hive目录下，使用ftp工具将作业附件中的stu_group.txt文件上传到阅读全文

posted @ 2022-04-06 14:31 王舰阅读(700) 评论(0) 推荐(0)

王舰的博客

网络江湖中的安全屋

随笔分类 - 大数据