随笔档案「2022年3月」 - 侨少

5.RDD操作实例

摘要：准备文件,上传到hdfs上读文件创建RDD 分词排除大小写，标点符号统计词频排序输出到文件查看结果 B.一句话实现二TOP值新建txt文件，将文件传上hdfs 将金额映射成键值对，注意values值为int类型对文件进行分词、去标点操作对键值对进行累加统计、排序输出文件查看结阅读全文

posted @ 2022-03-31 16:29 侨少阅读(56) 评论(0) 推荐(0)

4.RDD操作

摘要：1、从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs,然后上传文件 (3)flatMap(func) HDFS加载数据创建RDD 停止hdfs 3.通过并行集合（列表）创建RDD 1.输入列表，字符串，生成 2. RDD操作 1.转换操作（1）filter(func 阅读全文

posted @ 2022-03-21 20:01 侨少阅读(23) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要：3.Spark设计与运行原理，基本操作一、Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。答：Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成一套完整生态系统，既能够提供内存计算框架，也可以支持SQL即席查询、实时流阅读全文

posted @ 2022-03-14 02:14 侨少阅读(137) 评论(0) 推荐(0)

安装Spark与Python练习

摘要：一、安装Spark 检查基础环境hadoop,jdk 配置文件环境变量试运行Python代码二、Python编程练习：英文文本的词频统计准备文本文件读文件预处理：大小写，标点符号，停用词分词统计每个单词出现的次数按词频大小排序结果写文件阅读全文

posted @ 2022-03-07 00:40 侨少阅读(47) 评论(0) 推荐(0)