会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
侨少
博客园
首页
新随笔
联系
订阅
管理
2022年5月27日
sparkSQL综合作业
摘要: ```python from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc=SparkContext(conf=conf) url = "fil
阅读全文
posted @ 2022-05-27 19:31 侨少
阅读(82)
评论(0)
推荐(0)
2022年5月11日
7.Spark SQL
摘要: 1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出
阅读全文
posted @ 2022-05-11 19:51 侨少
阅读(33)
评论(0)
推荐(0)
2022年4月11日
6. RDD综合练习:更丰富的操作
摘要: 集合运算练习 union(), intersection(),subtract(), cartesian() 三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分 持久化 stu.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课
阅读全文
posted @ 2022-04-11 16:16 侨少
阅读(43)
评论(0)
推荐(0)
2022年3月31日
5.RDD操作实例
摘要: 准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现 二TOP值 新建txt文件,将文件传上hdfs 将金额映射成键值对,注意values值为int类型 对文件进行分词、去标点操作 对键值对进行累加统计、排序 输出文件 查看结
阅读全文
posted @ 2022-03-31 16:29 侨少
阅读(55)
评论(0)
推荐(0)
2022年3月21日
4.RDD操作
摘要: 1、从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs,然后上传文件 (3)flatMap(func) HDFS加载数据创建RDD 停止hdfs 3.通过并行集合(列表)创建RDD 1.输入列表,字符串,生成 2. RDD操作 1.转换操作 (1)filter(func
阅读全文
posted @ 2022-03-21 20:01 侨少
阅读(21)
评论(0)
推荐(0)
2022年3月14日
3.Spark设计与运行原理,基本操作
摘要: 3.Spark设计与运行原理,基本操作 一、Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 答:Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流
阅读全文
posted @ 2022-03-14 02:14 侨少
阅读(128)
评论(0)
推荐(0)
2022年3月7日
安装Spark与Python练习
摘要: 一、安装Spark 检查基础环境hadoop,jdk 配置文件 环境变量 试运行Python代码 二、Python编程练习:英文文本的词频统计 准备文本文件 读文件 预处理:大小写,标点符号,停用词 分词 统计每个单词出现的次数 按词频大小排序 结果写文件
阅读全文
posted @ 2022-03-07 00:40 侨少
阅读(43)
评论(0)
推荐(0)
2022年2月24日
1.大数据概述
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目
阅读全文
posted @ 2022-02-24 14:30 侨少
阅读(134)
评论(0)
推荐(0)