5.RDD操作实例
摘要:准备文件,上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号 统计词频 排序 输出到文件 查看结果 B.一句话实现 二TOP值 新建txt文件,将文件传上hdfs 将金额映射成键值对,注意values值为int类型 对文件进行分词、去标点操作 对键值对进行累加统计、排序 输出文件 查看结
阅读全文
posted @
2022-03-31 16:29
侨少
阅读(55)
推荐(0)
4.RDD操作
摘要:1、从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs,然后上传文件 (3)flatMap(func) HDFS加载数据创建RDD 停止hdfs 3.通过并行集合(列表)创建RDD 1.输入列表,字符串,生成 2. RDD操作 1.转换操作 (1)filter(func
阅读全文
posted @
2022-03-21 20:01
侨少
阅读(21)
推荐(0)
3.Spark设计与运行原理,基本操作
摘要:3.Spark设计与运行原理,基本操作 一、Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 答:Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流
阅读全文
posted @
2022-03-14 02:14
侨少
阅读(128)
推荐(0)
安装Spark与Python练习
摘要:一、安装Spark 检查基础环境hadoop,jdk 配置文件 环境变量 试运行Python代码 二、Python编程练习:英文文本的词频统计 准备文本文件 读文件 预处理:大小写,标点符号,停用词 分词 统计每个单词出现的次数 按词频大小排序 结果写文件
阅读全文
posted @
2022-03-07 00:40
侨少
阅读(43)
推荐(0)