会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
七彩木兰
时光你别催,我还有梦要追。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
13
下一页
2021年5月15日
Python学习路线
摘要: 1. python语言基础(初级) Python3入门教程 变量及其作用域,局部变量/全局变量的使用方法及差别 运算符及使用方法 数据类型,字符串处理、字符集。字符串切片、运算、格式化,默认字符集及处理方法 流程语法。条件控制、流程语法、循环语句for/while等 异常处理。try/except.
阅读全文
posted @ 2021-05-15 10:26 七彩木兰
阅读(116)
评论(0)
推荐(0)
2021年5月7日
spark event log
摘要: val df = spark.read.json("/spark2x/xxx")df.printSchemadf.select("Event").groupBy("Event").count.show(20,false)df.createOrReplaceTempView("t1")sql("sel
阅读全文
posted @ 2021-05-07 20:14 七彩木兰
阅读(163)
评论(0)
推荐(0)
2021年4月30日
夏令时
摘要: 我国实行夏令时的时间: 1986年至1991年,每年4月中旬的第一个星期日1时起至9月中旬的第一个星期日1时止。 1986年4月13日至9月14日, 1987年4月12日至9月13日, 1988年4月10日至9月11日, 1989年4月16日至9月17日, 1990年4月15日至9月16日, 199
阅读全文
posted @ 2021-04-30 14:11 七彩木兰
阅读(1952)
评论(0)
推荐(0)
2021年4月28日
Spark学习路线
摘要: 1 快速入门 官方快速入门文档:https://spark.apache.org/docs/3.1.1/quick-start.html Spark教程 https://www.yiibai.com/spark/apache-spark-filter-function.html 2 Spark原理
阅读全文
posted @ 2021-04-28 19:56 七彩木兰
阅读(216)
评论(0)
推荐(0)
2021年4月25日
Yarn和Spark对比
摘要: Yarn Spark ResourceManager(RM 资源管理器) Mater 管理子节点,资源调度,接受任务请求 NodeManager (NM 节点管理器) Worker 负责管理本节点的资源,并管理子进程,启动Driver和Executor Container 容器 Executor 运
阅读全文
posted @ 2021-04-25 09:32 七彩木兰
阅读(172)
评论(0)
推荐(0)
2021年4月23日
本地调试spark
摘要: 1、改成本地模式 . val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local") 2、编写入参 传参
阅读全文
posted @ 2021-04-23 20:17 七彩木兰
阅读(238)
评论(0)
推荐(0)
IntelliJ搭建Scala及Spark工程
摘要: 1 软件准备 注意:以下是针对Windows 7 64bit的开发环境搭建 软件名称 描述 下载地址 版本 软件安装包 JDK JAVA 开发工具包 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133
阅读全文
posted @ 2021-04-23 20:10 七彩木兰
阅读(164)
评论(0)
推荐(0)
idea编写wordcount程序及spark-submit运行
摘要: 1、idea中新建一个Maven项目 自定义名称 2、编辑pom文件,包括spark、scala、hadoop等properties版本信息、dependencies依赖、和plugins 插件信息 <?xml version="1.0" encoding="UTF-8"?> <project xm
阅读全文
posted @ 2021-04-23 19:35 七彩木兰
阅读(513)
评论(2)
推荐(0)
2021年4月22日
hive SerDe序列化和反序列序列化表
摘要: 1 什么是SerDe SerDe 是两个单词的拼写 serialized(序列化) 和 deserialized(反序列化)。 什么是序列化和反序列化呢? 当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以 二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可
阅读全文
posted @ 2021-04-22 20:13 七彩木兰
阅读(479)
评论(0)
推荐(0)
2021年4月20日
spark生成很多行/分区的表
摘要: 连接spark-shell 指定行数生成数据 scala>spark.range(50000000L).selectExpr("id % 10000 as a","id % 10000 as b").write.saveAsTable("t1") scala>spark.range(40000000
阅读全文
posted @ 2021-04-20 15:18 七彩木兰
阅读(309)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
13
下一页
公告