摘要: 一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 阅读全文
posted @ 2020-12-05 00:41 shtsht 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 1.下载喜欢的电子书 2.编写map和reduce函数 3.本地测试map和reduce函数 下载电子书,服务器拒绝访问该网站,权限不足 4.将文本数据上传到hdfs 5.更改变量 6.用hadoop-streaming提交任务查看结果 批量下载气象数据 阅读全文
posted @ 2020-11-06 16:30 shtsht 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-23 14:32 shtsht 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-10-16 15:07 shtsht 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。D 阅读全文
posted @ 2020-09-19 13:24 shtsht 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 1.了解微信、微博、小视频每天产生的数据量与数据类型 全国网民规模达8.29亿,全年新增网民5653万,互联网普及率为59.6%,较2017年底提升3.8%。我国手机网民规模达8.17亿,全年新增手机网民6433万;网民中使用手机上网的比例由2017年底的97.5%提升至2018年底的98.6%,手 阅读全文
posted @ 2020-09-11 22:16 shtsht 阅读(127) 评论(0) 推荐(0) 编辑