2022年5月27日
摘要:
综合练习:学生课程分数 网盘下载sc.txt文件,分别创建RDD、DataFrame和临时表/视图; 分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 导入文件 1.总共有多少学生? 2.总共开设了多少门课程? 3.每个学生选修了多少门课? 4.每门课程有
阅读全文
posted @ 2022-05-27 14:11
云往前面飘
阅读(41)
推荐(0)
2022年5月11日
摘要:
1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因 hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的根本原因是其完全脱离了hive的限制,hive是hive SQL转换成MapReduce然后提交到集群上执行,大
阅读全文
posted @ 2022-05-11 10:13
云往前面飘
阅读(136)
推荐(0)
2022年4月27日
摘要:
一.前言和项目的准备 1.前言 这几天做docker-compose查找了很多博客,踩了很多坑,人都emo了,就记录此次实验 2.项目准备 一般来说有以下几个文件 crud-demo-0.0.1-SNAPSHOT.jar 后端打包文件 dist.zip 前端打包文件 docker-compose.y
阅读全文
posted @ 2022-04-27 12:32
云往前面飘
阅读(2777)
推荐(0)
2022年4月20日
摘要:
集合运算 union(), intersection(),subtract(), cartesian() 内连接与外连接 综合练习:学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?map(), distinct(), coun
阅读全文
posted @ 2022-04-20 14:58
云往前面飘
阅读(32)
推荐(0)
2022年4月7日
摘要:
一、词频统计 A. 分步骤实现 1.上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 5
阅读全文
posted @ 2022-04-07 18:26
云往前面飘
阅读(31)
推荐(0)
2022年3月28日
摘要:
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD exit()退出上一步后启动hdfs上传文件且查看文件 进入spark加载刚刚传入hdfs的文件 不使用HDFS了,记得停止hdfs 3.通过并行集合(列表)创建RDD 输入列表字符串numpy生成数组 二、
阅读全文
posted @ 2022-03-28 23:00
云往前面飘
阅读(36)
推荐(0)
2022年3月13日
摘要:
一.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件,这些组件可以非常容易地把各种处理流程整合在一起,而这样的整合,在实际的数据分
阅读全文
posted @ 2022-03-13 19:58
云往前面飘
阅读(72)
推荐(0)
2022年3月3日
摘要:
一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压,文件夹重命名、权限(已安装没有图) 配置文件(已安装没有图) 环境变量(已安装没有图) 6.试运行Python代码 二、Python编程练习:英文文本的词频统计 思想 准备文本文件 读文件 预处理:大小写,标点符号,停用词
阅读全文
posted @ 2022-03-03 23:13
云往前面飘
阅读(44)
推荐(0)
2022年2月27日
摘要:
大数据是IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代、随着社交网络的逐渐成熟,移动带宽迅速提升、云计算、物联网应用更加丰富、更多的传感设备
阅读全文
posted @ 2022-02-27 23:05
云往前面飘
阅读(368)
推荐(0)