博客园 - Fk020306
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=115332
2021-06-18T06:35:29Z
Fk020306
https://www.cnblogs.com/K30236/
feed.cnblogs.com
https://www.cnblogs.com/K30236/p/14899420.html
10期末大作业 - Fk020306
1.选择使用什么数据,有哪些字段,多大数据量。 选用美国新冠数据集,变量有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths),共158981条数据。 2.准备分析哪些问题?(8个以上) (1) 统计美国截止每日的累计确诊人数和累计死亡人数
2021-06-18T06:35:00Z
2021-06-18T06:35:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】1.选择使用什么数据,有哪些字段,多大数据量。 选用美国新冠数据集,变量有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths),共158981条数据。 2.准备分析哪些问题?(8个以上) (1) 统计美国截止每日的累计确诊人数和累计死亡人数 <a href="https://www.cnblogs.com/K30236/p/14899420.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14842664.html
9.spark连接mysql数据库 - Fk020306
spark连接mysql数据库 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark
2021-06-02T11:44:00Z
2021-06-02T11:44:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】spark连接mysql数据库 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark <a href="https://www.cnblogs.com/K30236/p/14842664.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14787959.html
03 RDD 编程练习 - Fk020306
RDD 编程练习 一、filter, map, flatmap 练习: 1. 读文本文件生成 RDD lines >>> lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") 2. 将一行一行的文本分割成单词 words >
2021-05-19T15:10:00Z
2021-05-19T15:10:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】RDD 编程练习 一、filter, map, flatmap 练习: 1. 读文本文件生成 RDD lines >>> lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") 2. 将一行一行的文本分割成单词 words > <a href="https://www.cnblogs.com/K30236/p/14787959.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14787950.html
06 Spark SQL 及其DataFrame的基本操作 - Fk020306
06 Spark SQL 及其DataFrame的基本操作 1.Spark SQL出现的 原因是什么? 由于MapReduce这种计算模型执行效率比较慢,所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快,同时Spark SQL也支持从Hive
2021-05-19T15:09:00Z
2021-05-19T15:09:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】06 Spark SQL 及其DataFrame的基本操作 1.Spark SQL出现的 原因是什么? 由于MapReduce这种计算模型执行效率比较慢,所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快,同时Spark SQL也支持从Hive <a href="https://www.cnblogs.com/K30236/p/14787950.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14787941.html
07从RDD创建DataFrame - Fk020306
从RDD创建DataFrame 07 1.pandas df 与 spark df的相互转 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.
2021-05-19T15:07:00Z
2021-05-19T15:07:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】从RDD创建DataFrame 07 1.pandas df 与 spark df的相互转 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806. <a href="https://www.cnblogs.com/K30236/p/14787941.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14787931.html
08 学生课程分数的Spark SQL分析 - Fk020306
08 学生课程分数的Spark SQL分析 一. 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 1.生成“表头” 2.生成“表中的记录” 3.把“表头”和“表中的记录”拼装在一起 用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现
2021-05-19T15:06:00Z
2021-05-19T15:06:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】08 学生课程分数的Spark SQL分析 一. 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 1.生成“表头” 2.生成“表中的记录” 3.把“表头”和“表中的记录”拼装在一起 用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现 <a href="https://www.cnblogs.com/K30236/p/14787931.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14687120.html
05 RDD编程 - Fk020306
一、词频统计: 读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 sortBy(f) 按词频
2021-04-21T14:04:00Z
2021-04-21T14:04:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】一、词频统计: 读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 sortBy(f) 按词频 <a href="https://www.cnblogs.com/K30236/p/14687120.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14676398.html
RDD编程 - Fk020306
一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/file') lines.collect() 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda
2021-04-19T05:23:00Z
2021-04-19T05:23:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/file') lines.collect() 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda <a href="https://www.cnblogs.com/K30236/p/14676398.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14674741.html
05 RDD编程 - Fk020306
05 RDD编程 一、词频统计 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey()
2021-04-18T13:46:00Z
2021-04-18T13:46:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】05 RDD编程 一、词频统计 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() <a href="https://www.cnblogs.com/K30236/p/14674741.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14629540.html
04 RDD编程练习 - Fk020306
一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果 学生科目成绩
2021-04-07T12:58:00Z
2021-04-07T12:58:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果 学生科目成绩 <a href="https://www.cnblogs.com/K30236/p/14629540.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14629535.html
05 RDD练习:词频统计 - Fk020306
一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分
2021-04-07T12:57:00Z
2021-04-07T12:57:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 <a href="https://www.cnblogs.com/K30236/p/14629535.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14587233.html
Spark RDD编程 - Fk020306
1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() 3.
2021-03-27T14:16:00Z
2021-03-27T14:16:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() 3. <a href="https://www.cnblogs.com/K30236/p/14587233.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14524381.html
01 Spark架构与运行流程 - Fk020306
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 2. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。 3. 用图文描述你所理解的Spark运行架构,运行流程。 4. 软件平台准备:Linux-H
2021-03-12T07:49:00Z
2021-03-12T07:49:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 2. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。 3. 用图文描述你所理解的Spark运行架构,运行流程。 4. 软件平台准备:Linux-H <a href="https://www.cnblogs.com/K30236/p/14524381.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14209212.html
Sqoop安装与使用 - Fk020306
使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中。 mysql准备接受数据的数据库与表 hive准备待传输的数据 sqoop进行数据传输 mysql查看传输结果 先用测试文件做实验,成功后将电子书的统计结果传输出mysql中。 一.测试文件 1.mysql准备接受数据的数据库与表
2020-12-29T15:03:00Z
2020-12-29T15:03:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中。 mysql准备接受数据的数据库与表 hive准备待传输的数据 sqoop进行数据传输 mysql查看传输结果 先用测试文件做实验,成功后将电子书的统计结果传输出mysql中。 一.测试文件 1.mysql准备接受数据的数据库与表 <a href="https://www.cnblogs.com/K30236/p/14209212.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14209196.html
网站用户行为分析 - Fk020306
网站用户行为分析 1. 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 2. Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 3. Hive、MySQL、HBase数据互导 1. 本地数据集
2020-12-29T15:00:00Z
2020-12-29T15:00:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】网站用户行为分析 1. 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 2. Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 3. Hive、MySQL、HBase数据互导 1. 本地数据集 <a href="https://www.cnblogs.com/K30236/p/14209196.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14094569.html
Hive 操作与应用 词频统计 - Fk020306
一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wccd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop,启动hive start-all.sh jps hive 3.创建数据库,创
2020-12-06T13:53:00Z
2020-12-06T13:53:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wccd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop,启动hive start-all.sh jps hive 3.创建数据库,创 <a href="https://www.cnblogs.com/K30236/p/14094569.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/14021105.html
使用HBase Shell命令 - Fk020306
使用HBase Shell命令 或 使用HBase Java API完成: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P9
2020-11-22T12:19:00Z
2020-11-22T12:19:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】使用HBase Shell命令 或 使用HBase Java API完成: 1.任务: 列出HBase所有的表的相关信息,例如表名; 在终端打印出指定的表的所有记录数据; 向已经创建好的表添加和删除指定的列族或列; 清空指定的表的所有记录数据; 统计表的行数。 2.关系型数据库中的表和数据(教材P9 <a href="https://www.cnblogs.com/K30236/p/14021105.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/13945131.html
Hadoop使用实例 - Fk020306
一.词频统计 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 wget http://www.gutenberg.org/files/1342/1342-0.txt 2.编写map与reduce函数 #mapper.py #!/usr/bin/env python import sys
2020-11-08T10:06:00Z
2020-11-08T10:06:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】一.词频统计 1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 wget http://www.gutenberg.org/files/1342/1342-0.txt 2.编写map与reduce函数 #mapper.py #!/usr/bin/env python import sys <a href="https://www.cnblogs.com/K30236/p/13945131.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/13870742.html
HDFS 操作命令 - Fk020306
本地文件系统创建一个文件,输入带姓名学号信息。 查看新建文件所在目录 查看新建文件内容 将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小 删除本地1步骤创建的文件 将HDFS上的文件下载到本地 查看本地文件目录
2020-10-24T11:40:00Z
2020-10-24T11:40:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】本地文件系统创建一个文件,输入带姓名学号信息。 查看新建文件所在目录 查看新建文件内容 将此文件上传到HDFS文件系统上的用户目录 HDFS上查看相应目录 HDFS上查看文件内容 HDFS上查看文件大小 删除本地1步骤创建的文件 将HDFS上的文件下载到本地 查看本地文件目录 <a href="https://www.cnblogs.com/K30236/p/13870742.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/K30236/p/13849340.html
Hadoop安装 与 HDFS体系结构 - Fk020306
HDFS体系结构 写数据 读数据 安装SSH ,配置无密码SSH登录
2020-10-20T13:58:00Z
2020-10-20T13:58:00Z
Fk020306
https://www.cnblogs.com/K30236/
【摘要】HDFS体系结构 写数据 读数据 安装SSH ,配置无密码SSH登录 <a href="https://www.cnblogs.com/K30236/p/13849340.html" target="_blank">阅读全文</a>