会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
暴走的短腿猫
博客园
首页
新随笔
联系
订阅
管理
1
2
下一页
2021年6月6日
10 期末大作业
摘要: https://www.cnblogs.com/084ljx/p/14850240.html 07 Spark RDD编程 综合实例 英文词频统计 https://www.cnblogs.com/084ljx/p/14850249.html 07 从RDD创建DataFrame https://ww
阅读全文
posted @ 2021-06-06 00:21 暴走的短腿猫
阅读(82)
评论(0)
推荐(0)
2021年6月4日
09 spark连接mysql数据库
摘要: 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars 3.启动 Mysql
阅读全文
posted @ 2021-06-04 16:44 暴走的短腿猫
阅读(21)
评论(0)
推荐(0)
07 从RDD创建DataFrame
摘要: 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 Pandas Spark 工作方式 单机single machine tool,
阅读全文
posted @ 2021-06-04 16:43 暴走的短腿猫
阅读(55)
评论(0)
推荐(0)
07 Spark RDD编程 综合实例 英文词频统计
摘要: 1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word]
阅读全文
posted @ 2021-06-04 16:41 暴走的短腿猫
阅读(44)
评论(0)
推荐(0)
09 spark连接mysql数据库
摘要: 1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars 3.启动 Mysql
阅读全文
posted @ 2021-06-04 16:28 暴走的短腿猫
阅读(26)
评论(0)
推荐(0)
2021年5月24日
08 学生课程分数的Spark SQL分析
摘要: 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 一、用DataFrame的操作完成以下数据分析要求 每个分数+5分。 总共有多少学生? 总共开设了哪些课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程大于95分的学生人数? Tom选修了几门课?每
阅读全文
posted @ 2021-05-24 13:56 暴走的短腿猫
阅读(46)
评论(0)
推荐(0)
2021年5月10日
Spark SQL 及其DataFrame的基本操作
摘要: 1.Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Data
阅读全文
posted @ 2021-05-10 17:01 暴走的短腿猫
阅读(54)
评论(0)
推荐(0)
2021年4月26日
06 RDD基础
摘要: 学生课程分数案例 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), countByValue() Tom选修了几门课?每门课多少分?filter(), map
阅读全文
posted @ 2021-04-26 13:16 暴走的短腿猫
阅读(74)
评论(0)
推荐(0)
2021年4月12日
06 RDD编程
摘要: 1.总共有多少学生?map(), distinct(), count() 2.开设了多少门课程? 3.每个学生选修了多少门课?map(), countByKey() 4.每门课程有多少个学生选?map(), countByValue() 5.Tom选修了几门课?每门课多少分?filter(), ma
阅读全文
posted @ 2021-04-12 21:19 暴走的短腿猫
阅读(55)
评论(0)
推荐(0)
2021年4月5日
RDD练习:词频统计
摘要: 一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分
阅读全文
posted @ 2021-04-05 20:29 暴走的短腿猫
阅读(93)
评论(0)
推荐(0)
1
2
下一页
公告