球球不会转 - 博客园

2022年5月

摘要：网盘下载sc.txt文件，分别创建RDD、DataFrame和临时表/视图；分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 1.总共有多少学生？ 2.总共开设了多少门课程？ 3.每个学生选修了多少门课？ 4.每门课程有多少个学生选？ 5.每门课程>95 阅读全文

posted @ 2022-05-30 09:55 球球不会转阅读(33) 评论(0) 推荐(0)

7. Spark SQL

摘要： 7.Spark SQL 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因 hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成MapReduce 阅读全文

posted @ 2022-05-11 17:54 球球不会转阅读(63) 评论(0) 推荐(0)

2022年4月

6. RDD综合练习：更丰富的操作

摘要：三、综合练习：学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少门课程？生成（姓名，课程分数）键值对RDD，观察keys(),values() 每个学生选修了多少阅读全文

posted @ 2022-04-20 18:34 球球不会转阅读(18) 评论(0) 推荐(0)

5.RDD操作综合实例

摘要：一、词频统计 A. 分步骤实现准备文件下载小说或长篇新闻稿 4.排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 统计词频 6.按词频排阅读全文

posted @ 2022-04-07 21:19 球球不会转阅读(24) 评论(0) 推荐(0)

2022年3月

4.RDD操作

摘要：一、 RDD创建 1、从本地文件系统中加载数据创建RDD 2、从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 3、通过并行集合（列表）创建RDD 输入列表字符串 numpy生成数组若没有装numpy库，需先执行以下命令再继续操作 sudo apt instal 阅读全文

posted @ 2022-03-20 12:28 球球不会转阅读(41) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。目前，Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈（BDAS）。其核心框架是Spark，同时涵盖支持结构化数据SQL查询与阅读全文

posted @ 2022-03-15 15:06 球球不会转阅读(78) 评论(0) 推荐(0)

2.安装Spark与Python练习

摘要： 1、检查基础环境hadoop,jdk 启动hdfs查看进程 2、下载spark（省略，原来已下好Spark） 3、解压，文件夹重命名、权限（省略，原来已下好Spark） 4、配置文件配置Spark的classPath，并加上最后一行代码 5、环境变量 6、试运行Python代码二、Python编阅读全文

posted @ 2022-03-03 16:20 球球不会转阅读(51) 评论(0) 推荐(0)

2022年2月

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。答： hadoop是生态系统，如果要和另外两个比，那也该是hadoop的mr和他们比，hadoop是批处理模型，storm是流式处理模型，spark介于二者之间，不过现在storm和spark互相在涉及阅读全文

posted @ 2022-02-25 11:02 球球不会转阅读(46) 评论(0) 推荐(0)

公告