会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
MELos
博客园
首页
新随笔
联系
订阅
管理
2022年4月12日
RDD操作综合实例
摘要: 一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs 启动hdfs 上传文件并查看 2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 3.分词 4.标点符号re.split(pattern,str),flat
阅读全文
posted @ 2022-04-12 08:26 MELos
阅读(67)
评论(0)
推荐(0)
2022年3月27日
RDD操作
摘要: 一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、 RDD操作 1. filter(func)传入lambda匿名函数显式定义函数 2.map(func) 显式定义函数 lambda函数 字符
阅读全文
posted @ 2022-03-27 12:56 MELos
阅读(57)
评论(0)
推荐(0)
2022年3月11日
Spark设计与运行原理,基本操作
摘要: 1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 (1)Spark Core:Spark的核心组件,包含任务调度、内存管理、错误恢复、与存储系统交互模块。Spark Core中包含对弹性分布式数据集的API定义,RDD是只读的分区记录
阅读全文
posted @ 2022-03-11 19:46 MELos
阅读(121)
评论(0)
推荐(0)
2022年3月4日
安装Spark与Python练习
摘要: 一、安装Spark 1.检查环境 2环境变量 3.试运行python 二、Python编程练习:英文文本的词频统计 1.读文件 def du(): t = open('demo', 'r') print(t.read()) t.close() 2.预处理 def ycl(): t = open("d
阅读全文
posted @ 2022-03-04 11:53 MELos
阅读(53)
评论(0)
推荐(1)
2022年2月22日
大数据概述
摘要: 1. 2. (1)Spark速度和效率比MR要快得多;(2)Spark本身并不能存储数据;(3)Spark可以使用其他云数据平台数据存储。(4)Spark可以连接使用Mysql数据库数据;Spark可以对数据库数据进行修改删除。 3. 因为Hadoop与Spark都能运行在YARN上,所以在YARN
阅读全文
posted @ 2022-02-22 10:24 MELos
阅读(46)
评论(0)
推荐(0)
公告