MoooJL

2021年1月18日

摘要：操作步骤建立数据库连接 import pymysql db = pymysql.connect(host="127.0.0.1", user="root", password="123456", db="student_mis", port=3306) cur = db.cursor() 执行数据阅读全文

posted @ 2021-01-18 20:14 MoooJL 阅读(151) 评论(0) 推荐(0)

2021年1月17日

Spark学习--Structured Streaming

摘要： Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程总结 RDD 的优点面向对象的操作方式可以处理任何类型的数据 RDD 的缺点运行速度比较慢, 执行过程没有优化 API 比较僵硬, 阅读全文

posted @ 2021-01-17 20:50 MoooJL 阅读(535) 评论(0) 推荐(0)

YumRepo Error: All mirror URLs are not using ftp, http[s] or file.

摘要：在使用yum命令安装包时报如下错误解决方法：在确保虚拟机网络连通的条件下打开如下配置文件 vi /etc/yum.repos.d/CentOS-Base.repo 添加清华大学镜像，https://mirrors.tuna.tsinghua.edu.cn/centos-vault/ 找到对应链接，阅读全文

posted @ 2021-01-17 00:07 MoooJL 阅读(609) 评论(0) 推荐(0)

2021年1月16日

Spark学习--SparkStreaming

摘要： SparkStreaming 介绍流式计算框架批计算数据已经存在, 一次性读取所有的数据进行批量处理流计算数据源源不断的进来, 经过处理后落地特点 Spark Streaming 会源源不断的处理数据, 称之为流计算 Spark Streaming 并不是实时流, 而是按照时间切分小批量阅读全文

posted @ 2021-01-16 23:08 MoooJL 阅读(187) 评论(0) 推荐(0)

2021年1月14日

Spark学习--SparkSQL04

摘要：聚合使用 functions 函数进行聚合 import org.apache.spark.sql.functions._ val groupedDF: RelationalGroupedDataset = pmDF.groupBy('year) groupedDF.agg(avg('pm) as 阅读全文

posted @ 2021-01-14 23:40 MoooJL 阅读(118) 评论(0) 推荐(0)

2021年1月13日

Spark学习--SparkSQL03

摘要： Dataset (DataFrame) 的基础操作有类型操作分类算子解释转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world", "h 阅读全文

posted @ 2021-01-13 23:40 MoooJL 阅读(112) 评论(0) 推荐(0)

2021年1月12日

Spark学习--SparkSQL02

摘要：数据读写 DataFrameReader 组件解释 schema 结构信息, 因为 Dataset 是有结构的, 所以在读取数据的时候, 就需要有 Schema 信息, 有可能是从外部数据源获取的, 也有可能是指定的 option 连接外部数据源的参数, 例如 JDBC 的 URL, 或者读取 CS 阅读全文

posted @ 2021-01-12 23:33 MoooJL 阅读(157) 评论(0) 推荐(0)

2021年1月11日

Spark学习--SparkCore实战案例

摘要：案例一：词频统计要求：统计Harry Potter.txt文件中出现最多单词前十位内容样例： def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("wordCount") val s 阅读全文

posted @ 2021-01-11 22:09 MoooJL 阅读(389) 评论(0) 推荐(0)

Spark学习--SparkSQL01

摘要： SparkSQL 发展过程解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 解析器, 可以不使用 HQL, 此外, 还阅读全文

posted @ 2021-01-11 19:50 MoooJL 阅读(122) 评论(0) 推荐(0)

2021年1月10日

Spark学习--SparkCore03

摘要： Spark底层逻辑 Spark部署针对于上图, 可以看到整体上在集群中运行的角色有如下几个: Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集群中的协调节点 Worker Daemon Work 阅读全文

posted @ 2021-01-10 23:47 MoooJL 阅读(216) 评论(0) 推荐(0)

业精于勤，荒于嬉；行成于思，毁于随

公告