ckff

2022年5月11日

摘要： 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL的前身是Shark,是用来给MapReduce的技术人员提供快速上手的工具。Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具，但MapReduce计算过程中大量的中间磁盘落地过程消耗了大阅读全文

posted @ 2022-05-11 19:25 ckff 阅读(63) 评论(0) 推荐(0)

2022年4月20日

第六次作业：RDD综合练习：更丰富的操作

摘要：集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计综合练习：学生阅读全文

posted @ 2022-04-20 19:44 ckff 阅读(59) 评论(0) 推荐(0)

2022年4月12日

第五次作业

摘要： 1、准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD 分词排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 统计词频按阅读全文

posted @ 2022-04-12 12:29 ckff 阅读(54) 评论(0) 推荐(0)

2022年3月21日

作业4

摘要：一、 RDD创建二、 RDD操作转换操作 filter(func) 显式定义函数lambda函数 map(func) 显式定义函数 lambda函数行动操作 foreach(print) foreach(lambda a:print(a.upper()) collect() 阅读全文

posted @ 2022-03-21 22:41 ckff 阅读(33) 评论(0) 推荐(0)

2022年3月14日

第三次作业

摘要： .Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 ·Spark Core：BDAS生态系统的核心组件，是一种大数据分布式处理框架，提供了多种资源调度管理，通过内存计算、有向无环图（DAG）等机制保证分布式计算的快速，并引入了RDD的抽象阅读全文

posted @ 2022-03-14 22:54 ckff 阅读(88) 评论(0) 推荐(0)

2022年3月7日

第二次作业

摘要：一、安装Spark 检查基础环境hadoop,jdk 下载spark 解压，文件夹重命名、权限配置文件环境变量试运行Python代码二、Python编程练习：英文文本的词频统计准备文本文件读文件预处理：大小写，标点符号，停用词分词统计每个单词出现的次数按词频大小排序结果写文件阅读全文

posted @ 2022-03-07 19:25 ckff 阅读(42) 评论(0) 推荐(0)

2022年3月1日

作业1大数据概述

摘要： 1.HDFS 分布式文件系统Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统（Google File System,GFS）的开源实现，它是Hadoop两大核心组成部分之一，提供了在廉价服务器集群中进行大规模分布式文件存储的能力。HDFS具有很好的容错能力，并且兼容廉价的硬件设备，因此，可阅读全文

posted @ 2022-03-01 00:34 ckff 阅读(213) 评论(0) 推荐(0)

公告