摘要: 综合练习:学生课程分数 网盘下载sc.txt文件,创建RDD,并转换得到DataFrame。 >>> lines = spark.sparkContext.textFile('file:///home/hadoop/wc/sc.txt') >>> parts = lines.map(lambda x 阅读全文
posted @ 2022-05-12 19:59 版田一giao 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 1.1 PySpark-DataFrame创建: spark.read.text(url) spark.read.format("text").load("people.txt") >>> df1 = spark.read.text('file:///usr/local/spark/examples 阅读全文
posted @ 2022-04-28 00:29 版田一giao 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 一、集合运算练习 union(), intersection(),subtract(), cartesian() >>> rdd1 = sc.parallelize('abcd') >>> rdd2 = sc.parallelize('bcde') >>> rdd1.union(rdd2).coll 阅读全文
posted @ 2022-04-13 17:05 版田一giao 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 2、读文件创建RDD >>> text = sc.textFile("file:///home/hadoop/wc/f1.txt") 3、分词 >>> import re >>> pattern = " |\,|\ 阅读全文
posted @ 2022-04-06 17:04 版田一giao 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 2.1启动hdfs 2.2上传文件 2.3查看文件 2.4加载 2.5停止hdfs 3.通过并行集合(列表)创建RDD 3.1输入列表 3.2字符串 3.3numpy生成数组 二、 RDD操作 1.转换操作 阅读全文
posted @ 2022-03-22 14:02 版田一giao 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 1、图文阐述Spark生态系统的组成及各组件的功能。 Spark生态圈即BDAS.Spark具有很强的适应性,能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据,能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成Spar 阅读全文
posted @ 2022-03-14 17:04 版田一giao 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 一、安装Spark 1、检查基础环境hadoop,jdk 2、下载spark 3、解压,文件夹重命名、权限 4、配置文件 配置spark的classpath $ cd /usr/local/spark $ cp ./conf/spark-env.sh.template ./conf/spark-en 阅读全文
posted @ 2022-03-06 23:22 版田一giao 阅读(21) 评论(0) 推荐(0) 编辑