会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小王子C
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
下一页
2021年5月17日
学生课程分数的Spark SQL分析
摘要: 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 url = "file:///D:/chapter4-data01.txt" rdd = spark.sparkContext.textFile(url).map(lambda line:line.split(','
阅读全文
posted @ 2021-05-17 20:58 小王子C
阅读(716)
评论(0)
推荐(0)
2021年5月10日
从RDD创建DataFrame
摘要: 0.前次作业:从文件创建DataFrame 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() # 从数组创建pandas dataframe import pandas as pd im
阅读全文
posted @ 2021-05-10 19:31 小王子C
阅读(193)
评论(0)
推荐(0)
2021年5月9日
Spark SQL 及其DataFrame的基本操作
摘要: 1.Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Data
阅读全文
posted @ 2021-05-09 19:47 小王子C
阅读(244)
评论(0)
推荐(0)
2021年4月18日
RDD编程
摘要: 一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') 2.将一行一行的文本分割成单词 words flatmap() words = lines.flatMap(lambda line:line.
阅读全文
posted @ 2021-04-18 13:43 小王子C
阅读(104)
评论(0)
推荐(0)
2021年4月4日
RDD练习:词频统计
摘要: 一、词频统计: 1.读文本文件生成RDD lines lines=sc.textFile("file:///home/hadoop/word.txt") #读取本地文件 lines.collect() 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatM
阅读全文
posted @ 2021-04-04 11:30 小王子C
阅读(265)
评论(0)
推荐(0)
2021年3月30日
RDD编程练习
摘要: 一、filter,map,flatmap练习: 1.读文本文件生成RDD lines lines=sc.textFile("file:///home/hadoop/word.txt") #读取本地文件 lines.collect() 2.将一行一行的文本分割成单词 words words=lines
阅读全文
posted @ 2021-03-30 19:31 小王子C
阅读(83)
评论(0)
推荐(0)
2021年3月26日
Spark RDD编程
摘要: 1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 >>>lines=sc.textFile("file:///home/hadoop/word.txt") >>>lines.foreach(pr
阅读全文
posted @ 2021-03-26 17:12 小王子C
阅读(74)
评论(0)
推荐(0)
2021年3月12日
Spark架构与运行流程
摘要: 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 2. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。 3. 用图文描述你所理解的Spark运行架构,运行流程。 4. 软件平台准备:Linux-H
阅读全文
posted @ 2021-03-12 15:17 小王子C
阅读(129)
评论(0)
推荐(0)
2020年12月30日
网站用户行为分析
摘要: 网站用户行为分析 步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 1.2 Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 1.3 Hive、MySQL、HBase数据互导 Hi
阅读全文
posted @ 2020-12-30 15:50 小王子C
阅读(184)
评论(0)
推荐(0)
2020年12月12日
Sqoop安装与使用
摘要: 使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中。 mysql准备接受数据的数据库与表 hive准备待传输的数据 sqoop进行数据传输 mysql查看传输结果 先用测试文件做实验,成功后将电子书的统计结果传输出mysql中。
阅读全文
posted @ 2020-12-12 18:23 小王子C
阅读(68)
评论(0)
推荐(0)
上一页
1
2
3
4
5
下一页
公告