摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MAPreduce作业。为了实现Hive的兼容,Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、 阅读全文
posted @ 2022-05-09 22:08 李名彬 阅读(130) 评论(0) 推荐(0)
摘要: 6. RDD综合练习:更丰富的操作 集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日 阅读全文
posted @ 2022-04-13 17:47 李名彬 阅读(96) 评论(0) 推荐(0)
摘要: 5.RDD操作综合实例 一、词频统计 A. 分步骤实现 1、准备文件 分词 排除大小写lower(),map() .标点符号re.split(pattern,str),flatMap(),先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这 阅读全文
posted @ 2022-04-07 04:41 李名彬 阅读(89) 评论(0) 推荐(0)
摘要: 一、 RDD创建 1、从本地文件系统中加载数据创建RDD 2、从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3、通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 若没有装numpy库,需先执行以下命令再继续操作 sudo apt instal 阅读全文
posted @ 2022-03-21 14:51 李名彬 阅读(77) 评论(0) 推荐(0)
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark Sql:可以简单认为可以让用户使用写SQL的方式进行数据计算,SQL会被SQL解释器转化成Spark core任务,让懂SQL不懂spark的人都能通过写SQL的方式进行数 阅读全文
posted @ 2022-03-14 20:06 李名彬 阅读(119) 评论(0) 推荐(0)
摘要: 一、安装Spark 1.检查基础环境hadoop,jdk 2. 配置文件、环境变量 #配置文件vim /usr/local/spark/conf/spark-env.sh 3.环境变量 4.试运行Python代码 二、Python编程练习:英文文本的词频统计 准备文本文件 统计每个单词出现的次数 结 阅读全文
posted @ 2022-03-07 22:28 李名彬 阅读(79) 评论(0) 推荐(0)
摘要: 1、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1.HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的他是一个基础。它是一个高度容错的的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与之交互,获取文件位置 阅读全文
posted @ 2022-03-02 09:01 李名彬 阅读(108) 评论(0) 推荐(0)