江湖神经

8. SparkSQL综合作业

摘要： 7.Spark SQL 5. Pyspark中DataFrame与pandas中DataFrame 分别从文件创建DataFrame 比较两者的异同 pandas中DataFrame转换为Pyspark中DataFrame Pyspark中DataFrame转换为pandas中DataFrame 6 阅读全文

posted @ 2022-05-11 15:28 江湖神经阅读(163) 评论(0) 推荐(0)

7.Spark SQL

摘要： 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用中，经常需阅读全文

posted @ 2022-04-24 09:32 江湖神经阅读(150) 评论(0) 推荐(0)

6. RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综合练习：阅读全文

posted @ 2022-04-12 13:00 江湖神经阅读(96) 评论(0) 推荐(0)

5.RDD操作综合实例

摘要：一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs 启动hdfs 上传文件并查看 2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 3.分词 4.标点符号re.split(pattern,str)，flat 阅读全文

posted @ 2022-03-29 10:09 江湖神经阅读(154) 评论(0) 推荐(0)

4.RDD操作

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 2.从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 3.通过并行集合（列表）创建RDD 输入列表、字符串、生成数组二、阅读全文

posted @ 2022-03-18 15:19 江湖神经阅读(109) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 ·Spark Core：BDAS生态系统的核心组件，是一种大数据分布式处理框架，提供了多种资源调度管理，通过内存计算、有向无环图（DAG）等机制保证分布式计算的快速，并引入了RDD的抽阅读全文

posted @ 2022-03-10 19:10 江湖神经阅读(84) 评论(0) 推荐(0)

2.安装Spark与Python练习

摘要：一、安装Spark 1.检查基础环境hadoop,jdk 2.下载spark 由于上学期已经下载好了Spark，这里没有下载过程的截图 3.配置文件 4.配置环境变量 5.运行二、Python编程练习：英文文本的词频统计 path='/home/hadoop/wc/f1.txt' with ope 阅读全文

posted @ 2022-03-04 12:57 江湖神经阅读(38) 评论(0) 推荐(0)

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 (1) 由Hadoop生态圈可以看出HDFS是Hadoop的基石。HDFS是一个具备高度容错性的文件系统，同时适合部署在低廉价的硬件上。提供高吞吐量的数据访问，适合有着超大数据集的应用程序。 (2) Y 阅读全文

posted @ 2022-02-22 11:16 江湖神经阅读(82) 评论(0) 推荐(0)

导航

公告