摘要: 文章目录 前言 RDD、DataFrame和DataSet的定义 RDD、DataFrame和DataSet的比较 Spark版本 数据表示形式 数据格式 编译时类型安全 序列化 垃圾回收 效率/内存使用 编程语言支持 聚合操作(Aggregation) 结论 文章目录 前言 RDD、DataFra 阅读全文
posted @ 2019-03-01 15:50 LestatZ 阅读(7536) 评论(0) 推荐(0) 编辑
摘要: 文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二种方法:使用较大的executors 第三种方法:使用优化的executors 文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二 阅读全文
posted @ 2019-03-01 13:47 LestatZ 阅读(6270) 评论(1) 推荐(0) 编辑
摘要: 文章目录 一些常用的Spark SQL调优技巧 文章目录 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 使用缓存表 在sparksql中,当我们创建表时,我 阅读全文
posted @ 2019-03-01 12:49 LestatZ 阅读(2766) 评论(0) 推荐(0) 编辑
摘要: 在自动化中经常需要将日志文件发送到指定用户组,于是记录一下使用sendmail发送邮件及附件的shell脚本模板 阅读全文
posted @ 2019-02-27 15:49 LestatZ 阅读(1445) 评论(0) 推荐(0) 编辑
摘要: 在关于spark任务并行度的设置中,有两个参数我们会经常遇到,spark.sql.shuffle.partitions 和 spark.default.parallelism, 那么这两个参数到底有什么区别的? 首先,让我们来看下它们的定义 看起来它们的定义似乎也很相似,但在实际测试中, spark 阅读全文
posted @ 2019-02-27 10:30 LestatZ 阅读(1894) 评论(0) 推荐(1) 编辑
摘要: 文章目录 Spark Shuffle 可能引起shuffle的操作 Shuffle的优化 参考资料 文章目录 Spark Shuffle 可能引起shuffle的操作 Shuffle的优化 参考资料 Spark Shuffle 可能引起shuffle的操作 Shuffle的优化 参考资料 Spark 阅读全文
posted @ 2019-02-26 15:19 LestatZ 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 文章目录 什么是RDD RDD的主要属性 RDD的组成 RDD的分区(Partition) RDD分区的特征 RDD分区与任务执行的关系 RDD的分区器(Partitioner) RDD的逻辑执行计划(Lineage) RDD的依赖关系(Dependencies) 窄依赖(Narrow Depend 阅读全文
posted @ 2019-02-25 14:42 LestatZ 阅读(1770) 评论(0) 推荐(0) 编辑
摘要: 文章目录什么是ObjectIdObjectId的构造方法ObjectId实例方法ObjectId与Timestamp的转换shellpythonjavascript什么是ObjectIdObjectId是MongoDB文档的默认主键,通常位于插入文档的_id... 阅读全文
posted @ 2019-02-25 10:22 LestatZ 阅读(2876) 评论(0) 推荐(0) 编辑
摘要: 文章目录 问题描述 解决方法 文章目录 问题描述 解决方法 问题描述 解决方法 问题描述 解决方法 问题描述 解决方法 问题描述 之前项目一直使用pig进行数据迁移,输出文件的类型是Avro。 一开始都是将字段设为string类型,但后来随着上有数据类型变得复杂,原来pig脚本已经无法使用。 因为我 阅读全文
posted @ 2019-02-24 22:01 LestatZ 阅读(322) 评论(0) 推荐(0) 编辑
摘要: Avro中的复杂类型 Avro支持六种复杂类型: records enums arrays maps unions fixed Unions类型介绍 Unions使用JSON数组表示。 例如,[“null”,“string”]声明一个字段的类型可以是null或string。 注意 当替类型为unio 阅读全文
posted @ 2019-02-24 20:39 LestatZ 阅读(558) 评论(0) 推荐(0) 编辑