摘要: spark连接mysql数据库 1、安装启动检查Mysql服务。 netstat -tunlp (3306) 2、spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spa 阅读全文
posted @ 2021-05-30 09:34 叶利钦 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 一. 读学生课程分数文件chapter4-data01.txt,创建DataFrame。 1.生成“表头” 2.生成“表中的记录” 3.把“表头”和“表中的记录”拼装在一起 用DataFrame的操作或SQL语句完成以下数据分析要求,并和用RDD操作的实现进行对比: 每个分数+5分。 df_scs. 阅读全文
posted @ 2021-05-24 16:02 叶利钦 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文
posted @ 2021-05-14 11:24 叶利钦 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 1.Spark SQL 出现 的 原因是 什么? (1)Shark执行计划优化完全依赖于Hive,不便于添加新的优化策略。 (2)Spark是线程级并行,MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hi 阅读全文
posted @ 2021-05-10 15:41 叶利钦 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 05 RDD编程 一、词频统计: 1读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 2将一行一行的文本分割成单词 words flatmap( 阅读全文
posted @ 2021-04-18 12:50 叶利钦 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 1.准备停用词文本: 2.去除停用词: 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分数 groupByKey() 阅读全文
posted @ 2021-04-05 21:12 叶利钦 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.练习一的生成单词键值对 7.对单词进行分组 8.查看分组结果 学生科目成绩 阅读全文
posted @ 2021-03-31 21:14 叶利钦 阅读(26) 评论(0) 推荐(0) 编辑
摘要: Spark RDD编程 1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word 阅读全文
posted @ 2021-03-28 18:55 叶利钦 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 01 Spark架构与运行流程 1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 Hadoop框架中其中最核心的组件有三个:HDFS、MapReduce和Yarn。HDFS为海量数据提供了存储,而Ma 阅读全文
posted @ 2021-03-14 21:58 叶利钦 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 网站用户行为分析 步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 1.2 Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 1.3 Hive、MySQL、HBase数据互导 Hi 阅读全文
posted @ 2021-01-06 18:26 叶利钦 阅读(92) 评论(0) 推荐(0) 编辑