摘要: 一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs 启动hdfs 上传文件并查看 2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 3.分词 4.标点符号re.split(pattern,str),flat 阅读全文
posted @ 2022-04-12 08:26 MELos 阅读(67) 评论(0) 推荐(0)
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、 RDD操作 1. filter(func)传入lambda匿名函数显式定义函数 2.map(func) 显式定义函数 lambda函数 字符 阅读全文
posted @ 2022-03-27 12:56 MELos 阅读(57) 评论(0) 推荐(0)
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 (1)Spark Core:Spark的核心组件,包含任务调度、内存管理、错误恢复、与存储系统交互模块。Spark Core中包含对弹性分布式数据集的API定义,RDD是只读的分区记录 阅读全文
posted @ 2022-03-11 19:46 MELos 阅读(121) 评论(0) 推荐(0)
摘要: 一、安装Spark 1.检查环境 2环境变量 3.试运行python 二、Python编程练习:英文文本的词频统计 1.读文件 def du(): t = open('demo', 'r') print(t.read()) t.close() 2.预处理 def ycl(): t = open("d 阅读全文
posted @ 2022-03-04 11:53 MELos 阅读(53) 评论(0) 推荐(1)
摘要: 1. 2. (1)Spark速度和效率比MR要快得多;(2)Spark本身并不能存储数据;(3)Spark可以使用其他云数据平台数据存储。(4)Spark可以连接使用Mysql数据库数据;Spark可以对数据库数据进行修改删除。 3. 因为Hadoop与Spark都能运行在YARN上,所以在YARN 阅读全文
posted @ 2022-02-22 10:24 MELos 阅读(46) 评论(0) 推荐(0)