03 2022 档案
摘要:一、RDD创建 输出查询结果 因为我的word.txt文件是随意打的字符 无查找结果 因此此处报错 在虚拟环境进行操作 从HDFS加载数据创建RDD 加载 停止hdfs 通过并行集合(列表)创建RDD 输入列表、字符串、生成数组 二、 RDD操作 转换操作 1. filter(func)传入lamb
阅读全文
摘要:Spark生态系统的组成及各组件的功能 Spark生态圈也称为BDAS(伯克利数据分析栈),是伯克利APMLab实验室打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的一个平台。伯克利AMPLab运用大数据、云计算、通信等各种
阅读全文
摘要:二:Python编程练习:英文文本的词频统计 1.准备文本文件 2.读文件 预处理:大小写,标点符号,停用词,分词,统计每个单词出现的次数 ,按词频大小排序 def get_text(file_name): with open(file_name,'r',encoding='utf-8') as f
阅读全文