版田一giao - 博客园

2022年5月12日

摘要：综合练习：学生课程分数网盘下载sc.txt文件，创建RDD，并转换得到DataFrame。 >>> lines = spark.sparkContext.textFile('file:///home/hadoop/wc/sc.txt') >>> parts = lines.map(lambda x 阅读全文

posted @ 2022-05-12 19:59 版田一giao 阅读(127) 评论(0) 推荐(0)

2022年4月28日

7. Spark SQL

摘要： 1.1 PySpark-DataFrame创建： spark.read.text(url) spark.read.format("text").load("people.txt") >>> df1 = spark.read.text('file:///usr/local/spark/examples 阅读全文

posted @ 2022-04-28 00:29 版田一giao 阅读(121) 评论(0) 推荐(0)

2022年4月13日

6. RDD综合练习：更丰富的操作

摘要：一、集合运算练习 union()， intersection()，subtract(), cartesian() >>> rdd1 = sc.parallelize('abcd') >>> rdd2 = sc.parallelize('bcde') >>> rdd1.union(rdd2).coll 阅读全文

posted @ 2022-04-13 17:05 版田一giao 阅读(105) 评论(0) 推荐(0)

2022年4月6日

5.RDD操作和综合实例

摘要：一、词频统计 A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上 2、读文件创建RDD >>> text = sc.textFile("file:///home/hadoop/wc/f1.txt") 3、分词 >>> import re >>> pattern = " |\,|\ 阅读全文

posted @ 2022-04-06 17:04 版田一giao 阅读(101) 评论(0) 推荐(0)

2022年3月22日

4.RDD操作

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 2.1启动hdfs 2.2上传文件 2.3查看文件 2.4加载 2.5停止hdfs 3.通过并行集合（列表）创建RDD 3.1输入列表 3.2字符串 3.3numpy生成数组二、 RDD操作 1.转换操作阅读全文

posted @ 2022-03-22 14:02 版田一giao 阅读(28) 评论(0) 推荐(0)

2022年3月14日

3.Spark设计与运行原理，基本操作

摘要： 1、图文阐述Spark生态系统的组成及各组件的功能。 Spark生态圈即BDAS.Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spar 阅读全文

posted @ 2022-03-14 17:04 版田一giao 阅读(155) 评论(0) 推荐(0)

2022年3月6日

2.安装Spark与Python练习

摘要：一、安装Spark 1、检查基础环境hadoop,jdk 2、下载spark 3、解压，文件夹重命名、权限 4、配置文件配置spark的classpath $ cd /usr/local/spark $ cp ./conf/spark-env.sh.template ./conf/spark-en 阅读全文

posted @ 2022-03-06 23:22 版田一giao 阅读(65) 评论(0) 推荐(0)

世炯

公告