摘要: 1、安装hive 2安装mysql 3、词频统计 阅读全文
posted @ 2020-12-06 18:53 Hildarling 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 二、气象数据分析 1、批量下载气象数据 1 wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2020/5* 获取数据 2、解压数据集,并保存在本地文本文件中 zcat data/ftp. 阅读全文
posted @ 2020-11-06 09:12 Hildarling 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 Hadoop有三个版本,Hadoop1.0包括0.20.x、0.21.x、0.22.x三大版本,其中0.21.x和0.22.x增加了HDFS HA 等重要的新特性。第二代包含了0.23.x和2.x两大版本,是一套全新的架构,均包含HDF 阅读全文
posted @ 2020-09-19 21:37 Hildarling 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 大数据概述与学习资源 1、 了解微信、微博、小视频每天产生的数据量与数据类型。 微信:每天大概发送数据量为450亿次,数据类型为非结构化数据。 微博:1亿微博内容,数据类型为非结构化数据。 小视频:上亿,数据类型为非结构性数据。 2、 选择一个你感兴趣的领域应用数据思维进行分析决策的案例。 亚马逊的 阅读全文
posted @ 2020-09-12 21:26 Hildarling 阅读(123) 评论(0) 推荐(0) 编辑