李名彬

2022年5月9日

摘要： 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、阅读全文

posted @ 2022-05-09 22:08 李名彬阅读(135) 评论(0) 推荐(0)

2022年4月13日

6. RDD综合练习：更丰富的操作

摘要： 6. RDD综合练习：更丰富的操作集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日阅读全文

posted @ 2022-04-13 17:47 李名彬阅读(98) 评论(0) 推荐(0)

2022年4月7日

5.RDD操作综合实例

摘要： 5.RDD操作综合实例一、词频统计 A. 分步骤实现 1、准备文件分词排除大小写lower()，map() .标点符号re.split(pattern,str)，flatMap(),先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些，但我们不需要返回，所以这阅读全文

posted @ 2022-04-07 04:41 李名彬阅读(98) 评论(0) 推荐(0)

2022年3月21日

RDD操作

摘要：一、 RDD创建 1、从本地文件系统中加载数据创建RDD 2、从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 3、通过并行集合（列表）创建RDD 输入列表字符串 numpy生成数组若没有装numpy库，需先执行以下命令再继续操作 sudo apt instal 阅读全文

posted @ 2022-03-21 14:51 李名彬阅读(84) 评论(0) 推荐(0)

2022年3月14日

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 Spark Sql：可以简单认为可以让用户使用写SQL的方式进行数据计算，SQL会被SQL解释器转化成Spark core任务，让懂SQL不懂spark的人都能通过写SQL的方式进行数阅读全文

posted @ 2022-03-14 20:06 李名彬阅读(132) 评论(0) 推荐(0)

2022年3月7日

2.安装Spark与Python练习

摘要：一、安装Spark 1.检查基础环境hadoop，jdk 2. 配置文件、环境变量 #配置文件vim /usr/local/spark/conf/spark-env.sh 3.环境变量 4.试运行Python代码二、Python编程练习：英文文本的词频统计准备文本文件统计每个单词出现的次数结阅读全文

posted @ 2022-03-07 22:28 李名彬阅读(80) 评论(0) 推荐(0)

2022年3月2日

第一次作业大数据概述

摘要： 1、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 1.HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的他是一个基础。它是一个高度容错的的系统，能检测和应对硬件故障。 client:切分文件，访问HDFS，与之交互，获取文件位置阅读全文

posted @ 2022-03-02 09:01 李名彬阅读(116) 评论(0) 推荐(0)

公告