会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
世炯
博客园
首页
新随笔
联系
订阅
管理
2022年5月12日
8. SparkSQL综合作业
摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,创建RDD,并转换得到DataFrame。 >>> lines = spark.sparkContext.textFile('file:///home/hadoop/wc/sc.txt') >>> parts = lines.map(lambda x
阅读全文
posted @ 2022-05-12 19:59 版田一giao
阅读(106)
评论(0)
推荐(0)
2022年4月28日
7. Spark SQL
摘要: 1.1 PySpark-DataFrame创建: spark.read.text(url) spark.read.format("text").load("people.txt") >>> df1 = spark.read.text('file:///usr/local/spark/examples
阅读全文
posted @ 2022-04-28 00:29 版田一giao
阅读(84)
评论(0)
推荐(0)
2022年4月13日
6. RDD综合练习:更丰富的操作
摘要: 一、集合运算练习 union(), intersection(),subtract(), cartesian() >>> rdd1 = sc.parallelize('abcd') >>> rdd2 = sc.parallelize('bcde') >>> rdd1.union(rdd2).coll
阅读全文
posted @ 2022-04-13 17:05 版田一giao
阅读(86)
评论(0)
推荐(0)
2022年4月6日
5.RDD操作和综合实例
摘要: 一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 2、读文件创建RDD >>> text = sc.textFile("file:///home/hadoop/wc/f1.txt") 3、分词 >>> import re >>> pattern = " |\,|\
阅读全文
posted @ 2022-04-06 17:04 版田一giao
阅读(77)
评论(0)
推荐(0)
2022年3月22日
4.RDD操作
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 2.1启动hdfs 2.2上传文件 2.3查看文件 2.4加载 2.5停止hdfs 3.通过并行集合(列表)创建RDD 3.1输入列表 3.2字符串 3.3numpy生成数组 二、 RDD操作 1.转换操作
阅读全文
posted @ 2022-03-22 14:02 版田一giao
阅读(25)
评论(0)
推荐(0)
2022年3月14日
3.Spark设计与运行原理,基本操作
摘要: 1、图文阐述Spark生态系统的组成及各组件的功能。 Spark生态圈即BDAS.Spark具有很强的适应性,能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据,能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成Spar
阅读全文
posted @ 2022-03-14 17:04 版田一giao
阅读(136)
评论(0)
推荐(0)
2022年3月6日
2.安装Spark与Python练习
摘要: 一、安装Spark 1、检查基础环境hadoop,jdk 2、下载spark 3、解压,文件夹重命名、权限 4、配置文件 配置spark的classpath $ cd /usr/local/spark $ cp ./conf/spark-env.sh.template ./conf/spark-en
阅读全文
posted @ 2022-03-06 23:22 版田一giao
阅读(54)
评论(0)
推荐(0)
公告