MELos

2022年4月12日

摘要：一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs 启动hdfs 上传文件并查看 2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 3.分词 4.标点符号re.split(pattern,str)，flat 阅读全文

posted @ 2022-04-12 08:26 MELos 阅读(70) 评论(0) 推荐(0)

2022年3月27日

RDD操作

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合（列表）创建RDD输入列表、字符串、生成数组二、 RDD操作 1. filter(func)传入lambda匿名函数显式定义函数 2.map(func) 显式定义函数 lambda函数字符阅读全文

posted @ 2022-03-27 12:56 MELos 阅读(59) 评论(0) 推荐(0)

2022年3月11日

Spark设计与运行原理，基本操作

摘要： 1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。（1）Spark Core：Spark的核心组件，包含任务调度、内存管理、错误恢复、与存储系统交互模块。Spark Core中包含对弹性分布式数据集的API定义，RDD是只读的分区记录阅读全文

posted @ 2022-03-11 19:46 MELos 阅读(123) 评论(0) 推荐(0)

2022年3月4日

安装Spark与Python练习

摘要：一、安装Spark 1.检查环境 2环境变量 3.试运行python 二、Python编程练习：英文文本的词频统计 1.读文件 def du(): t = open('demo', 'r') print(t.read()) t.close() 2.预处理 def ycl(): t = open("d 阅读全文

posted @ 2022-03-04 11:53 MELos 阅读(55) 评论(0) 推荐(1)

2022年2月22日

大数据概述

摘要： 1. 2. （1）Spark速度和效率比MR要快得多；（2）Spark本身并不能存储数据；（3）Spark可以使用其他云数据平台数据存储。（4）Spark可以连接使用Mysql数据库数据；Spark可以对数据库数据进行修改删除。 3. 因为Hadoop与Spark都能运行在YARN上，所以在YARN 阅读全文

posted @ 2022-02-22 10:24 MELos 阅读(48) 评论(0) 推荐(0)

公告