侨少 - 博客园

2022年5月27日

摘要： ```python from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc=SparkContext(conf=conf) url = "fil 阅读全文

posted @ 2022-05-27 19:31 侨少阅读(89) 评论(0) 推荐(0)

2022年5月11日

7.Spark SQL

摘要： 1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出阅读全文

posted @ 2022-05-11 19:51 侨少阅读(38) 评论(0) 推荐(0)

2022年4月11日

6. RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 三、学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分持久化 stu.cache() 总共有多少学生？map(), distinct(), count() 开设了多少门课阅读全文

posted @ 2022-04-11 16:16 侨少阅读(44) 评论(0) 推荐(0)

2022年3月31日

5.RDD操作实例

摘要：准备文件,上传到hdfs上读文件创建RDD 分词排除大小写，标点符号统计词频排序输出到文件查看结果 B.一句话实现二TOP值新建txt文件，将文件传上hdfs 将金额映射成键值对，注意values值为int类型对文件进行分词、去标点操作对键值对进行累加统计、排序输出文件查看结阅读全文

posted @ 2022-03-31 16:29 侨少阅读(56) 评论(0) 推荐(0)

2022年3月21日

4.RDD操作

摘要： 1、从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs,然后上传文件 (3)flatMap(func) HDFS加载数据创建RDD 停止hdfs 3.通过并行集合（列表）创建RDD 1.输入列表，字符串，生成 2. RDD操作 1.转换操作（1）filter(func 阅读全文

posted @ 2022-03-21 20:01 侨少阅读(23) 评论(0) 推荐(0)

2022年3月14日

3.Spark设计与运行原理，基本操作

摘要： 3.Spark设计与运行原理，基本操作一、Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。答：Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成一套完整生态系统，既能够提供内存计算框架，也可以支持SQL即席查询、实时流阅读全文

posted @ 2022-03-14 02:14 侨少阅读(136) 评论(0) 推荐(0)

2022年3月7日

安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 配置文件环境变量试运行Python代码二、Python编程练习：英文文本的词频统计准备文本文件读文件预处理：大小写，标点符号，停用词分词统计每个单词出现的次数按词频大小排序结果写文件阅读全文

posted @ 2022-03-07 00:40 侨少阅读(47) 评论(0) 推荐(0)

2022年2月24日

1.大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目阅读全文

posted @ 2022-02-24 14:30 侨少阅读(141) 评论(0) 推荐(0)