摘要:
Sqoop安装与使用 1.mysql准备接受数据的数据库与表 2.hive准备待传输的数据 3.sqoop进行数据传输 4..mysql查看传输结果 阅读全文
摘要:
一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop,启动hive 3.创建数据库,创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果 二、hive用HDFS上的文件进行词频统计1.准备电子书或其它大的文本文 阅读全文
摘要:
1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2.编写map与reduce函数 3.本地测试map与reduce 测试代码cat 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 二.气象数据分析 气象准备数据: 阅读全文
摘要:
一.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。Apache Hadoop:是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。它实现了Map/Reduce编程范型,计算任务会被分割成多次运行在不同的节点上。除此之外,它还提供了一款分布式文件系统,数据被存储在计算节点上以提供极高 阅读全文
摘要:
1. 微信每天产生的数据量:每天有450亿次信息发送出,有4.1亿次音视频呼叫成功,微信用户超过9亿,每天产生的数据量都是数亿tb。主要的数据类型为:打字聊天、语音聊天、视频聊天和浏览朋友圈产生的数据。 微博每天产生的数据量:微博每日产生过亿条微博,每天产生的数据量是数千万tb。主要的数据类型为:发 阅读全文