会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
MoooJL
业精于勤,荒于嬉;行成于思,毁于随
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
24
下一页
2021年1月18日
Python操作MySQL数据库
摘要: 操作步骤 建立数据库连接 import pymysql db = pymysql.connect(host="127.0.0.1", user="root", password="123456", db="student_mis", port=3306) cur = db.cursor() 执行数据
阅读全文
posted @ 2021-01-18 20:14 MoooJL
阅读(142)
评论(0)
推荐(0)
2021年1月17日
Spark学习--Structured Streaming
摘要: Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程 总结 RDD 的优点 面向对象的操作方式 可以处理任何类型的数据 RDD 的缺点 运行速度比较慢, 执行过程没有优化 API 比较僵硬,
阅读全文
posted @ 2021-01-17 20:50 MoooJL
阅读(525)
评论(0)
推荐(0)
YumRepo Error: All mirror URLs are not using ftp, http[s] or file.
摘要: 在使用yum命令安装包时报如下错误 解决方法:在确保虚拟机网络连通的条件下打开如下配置文件 vi /etc/yum.repos.d/CentOS-Base.repo 添加清华大学镜像,https://mirrors.tuna.tsinghua.edu.cn/centos-vault/ 找到对应链接,
阅读全文
posted @ 2021-01-17 00:07 MoooJL
阅读(603)
评论(0)
推荐(0)
2021年1月16日
Spark学习--SparkStreaming
摘要: SparkStreaming 介绍 流式计算框架 批计算 数据已经存在, 一次性读取所有的数据进行批量处理 流计算 数据源源不断的进来, 经过处理后落地 特点 Spark Streaming 会源源不断的处理数据, 称之为流计算 Spark Streaming 并不是实时流, 而是按照时间切分小批量
阅读全文
posted @ 2021-01-16 23:08 MoooJL
阅读(178)
评论(0)
推荐(0)
2021年1月14日
Spark学习--SparkSQL04
摘要: 聚合 使用 functions 函数进行聚合 import org.apache.spark.sql.functions._ val groupedDF: RelationalGroupedDataset = pmDF.groupBy('year) groupedDF.agg(avg('pm) as
阅读全文
posted @ 2021-01-14 23:40 MoooJL
阅读(114)
评论(0)
推荐(0)
2021年1月13日
Spark学习--SparkSQL03
摘要: Dataset (DataFrame) 的基础操作 有类型操作 分类算子解释 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world", "h
阅读全文
posted @ 2021-01-13 23:40 MoooJL
阅读(99)
评论(0)
推荐(0)
2021年1月12日
Spark学习--SparkSQL02
摘要: 数据读写 DataFrameReader 组件解释 schema 结构信息, 因为 Dataset 是有结构的, 所以在读取数据的时候, 就需要有 Schema 信息, 有可能是从外部数据源获取的, 也有可能是指定的 option 连接外部数据源的参数, 例如 JDBC 的 URL, 或者读取 CS
阅读全文
posted @ 2021-01-12 23:33 MoooJL
阅读(142)
评论(0)
推荐(0)
2021年1月11日
Spark学习--SparkCore实战案例
摘要: 案例一:词频统计 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("wordCount") val s
阅读全文
posted @ 2021-01-11 22:09 MoooJL
阅读(381)
评论(0)
推荐(0)
Spark学习--SparkSQL01
摘要: SparkSQL 发展过程 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 解析器, 可以不使用 HQL, 此外, 还
阅读全文
posted @ 2021-01-11 19:50 MoooJL
阅读(106)
评论(0)
推荐(0)
2021年1月10日
Spark学习--SparkCore03
摘要: Spark底层逻辑 Spark部署 针对于上图, 可以看到整体上在集群中运行的角色有如下几个: Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集群中的协调节点 Worker Daemon Work
阅读全文
posted @ 2021-01-10 23:47 MoooJL
阅读(205)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
24
下一页
公告