摘要: 一、下载、解压、改名、权限 二、配置文件与环境变量 三、Mysql驱动和测试链接 使用 一、mysql准备接受数据的数据库与表 二、hive准备待传输的数据 三、sqoop进行数据传输 四、mysql查看传输结果 阅读全文
posted @ 2020-12-10 12:40 ☞简单、快乐ᝰ 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 阅读全文
posted @ 2020-12-04 09:51 ☞简单、快乐ᝰ 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 使用HBase Shell命令 或 使用HBase Java API完成: 1.任务: (1)列出HBase所有的表的相关信息,例如表名; (2)在终端打印出指定的表的所有记录数据; (3)向已经创建好的表添加和删除指定的列族或列; 添加 删除 (4)清空指定的表的所有记录数据; (5)统计表的行数 阅读全文
posted @ 2020-11-20 23:33 ☞简单、快乐ᝰ 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 阅读全文
posted @ 2020-11-05 13:46 ☞简单、快乐ᝰ 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 1.本地文件系统创建一个文件,输入带姓名学号信息 2.查看新建文件所在目录 3.查看新建文件内容 4.将此文件上传到HDFS文件系统上 5.HDFS上查看相应目录 6.HDFS上查看文件内容 7.删除本地1步骤创建的文件 8.将HDFS上的文件下载到本地 9.查看本地文件目录 阅读全文
posted @ 2020-10-23 12:42 ☞简单、快乐ᝰ 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-16 20:50 ☞简单、快乐ᝰ 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-10 01:08 ☞简单、快乐ᝰ 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 一、了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 0.141 HDFS中更好的校验和。校验和不再存储在并行HDFS文件中,而是由数据节点与块一起直接存储。这对于命名节点更加有效,并且还提高了数据完整性。 管道:MapReduce的C ++ API Eclipse插件,包括HDFS浏览, 阅读全文
posted @ 2020-09-18 11:04 ☞简单、快乐ᝰ 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 了解微信、微博、小视频每天产生的数据量与数据类型。 微信每天可以产生超过10亿人的数据量,数据类型有String、Number、Object、Array、Bool、Date、Geo、Null等 微博每天可以产生上亿条数据,数据类型有String、Number、Object、Array、Bool、Da 阅读全文
posted @ 2020-09-11 10:19 ☞简单、快乐ᝰ 阅读(197) 评论(0) 推荐(0) 编辑