2019 年 3月随笔档案 - LestatZ

关于Spark中的常见问题及解决方法(5) ——Driver OutOfMemoryError或Driver Unresponsive

摘要：前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题，因为它会使我们的Spark应用程序崩溃。但这类问题也经常发生，因为Driver 收集了太多的数据回到驱动程序，使其内存不足。主要症状 Spark应用程序无应答或者崩溃 Driver日阅读全文

posted @ 2019-03-30 11:12 LestatZ 阅读(1177) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(4) —— Join操作

摘要：前言 Join和Aggregation操作都可能引起Shuffle，所以这类问题一般具有相似的症状和解决办法。主要症状 Join stage可能一直在运行，它可能包含一个或者多个task。该Join stage前后的stage看起来一切正常。可能的解决方法许多Join可以被手动或自动）优化到阅读全文

posted @ 2019-03-30 10:31 LestatZ 阅读(843) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(3) —— Aggregations操作

摘要：前言如果你程序中的聚合速度较慢，请先查看 "Spark Stragglers/任务执行缓慢" 部分。主要症状在执行 groupby 操作时，任务执行缓慢聚合操作的后序操作也很缓慢可能的原因这类问题并没有固定的解决方法。有时候，由于作业中的数据有一些偏斜的键(即数据倾斜)，导致作业执行缓阅读全文

posted @ 2019-03-30 10:16 LestatZ 阅读(548) 评论(0) 推荐(0)

i-Shanghai无法跳转登陆页面/登陆页面打不开的解决方法

摘要：记得之前连接i-Shanghai时都能自动弹出登陆页面，但是最近使用时，虽然登陆页面能够弹出，但是该页面并不能正常打开。检查了一下，原来是因为之前设置了DNS，导致域名解析失效。解决步骤如下：在网络设置中，删掉自定义的DNS配置并保存。断开i-Shangha... 阅读全文

posted @ 2019-03-27 10:57 LestatZ 阅读(3580) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(2) ——Stragglers/任务执行缓慢

摘要：文章目录前言主要症状可能的原因可能的解决方法总结参考资料文章目录前言主要症状可能的原因可能的解决方法总结参考资料前言主要症状可能的原因可能的解决方法总结参考资料主要症状可能的原因可能的解决方法前言在优化应用程序时，这类问题非常常见，大多数时候可能是由于阅读全文

posted @ 2019-03-27 10:21 LestatZ 阅读(1198) 评论(0) 推荐(0)

关于Spark中的多任务并发处理(Concurrency)

摘要：文章目录 Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料文章目录 Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料 Spark中的多任务处理一个顺序作业的例子一个有缺陷阅读全文

posted @ 2019-03-26 15:57 LestatZ 阅读(8401) 评论(0) 推荐(0)

关于Spark中的常见问题及解决方法(1)

摘要：文章目录前言 Spark作业无法启动运行前的出现错误运行中出现错误参考资料文章目录前言 Spark作业无法启动运行前的出现错误运行中出现错误参考资料前言 Spark作业无法启动运行前的出现错误运行中出现错误参考资料前言 Spark作业无法启动运行前的出现错误运行中出现阅读全文

posted @ 2019-03-26 14:20 LestatZ 阅读(1501) 评论(0) 推荐(0)

关于SparkSession

摘要：关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shell或者其他交互模式中，SparkSession已经预先被创建好了，但在正常编写的Spark程序中，我们必须手动创建SparkSession。在一些遗留的Spark代码中，我们一般使用阅读全文

posted @ 2019-03-26 11:15 LestatZ 阅读(972) 评论(0) 推荐(0)

关于Spark RDD API中的Checkpointing

摘要：文章目录什么是Checkpointing 为什么使用Checkpointing 哪些RDD需要使用Checkpointing Checkpointing和Cache的区别参考资料文章目录什么是Checkpointing 为什么使用Checkpointing 哪些RDD需要使用Checkpoi 阅读全文

posted @ 2019-03-25 18:42 LestatZ 阅读(339) 评论(0) 推荐(0)

Mac上搭建Hadoop环境(3) — Hive下载及安装

摘要：文章目录前言主要步骤安装mysql配置hive元数据库Hive安装设置环境变量设置配置文件准备mysql-connector-java初始化元数据启动metastore测试前言之前已经完成了hadoop集群的安装，测试了HDFS的使用，现在准备在此基础上，继... 阅读全文

posted @ 2019-03-24 19:38 LestatZ 阅读(1511) 评论(0) 推荐(0)

Mac上搭建Hadoop环境(2) — Hadoop下载及安装

摘要：文章目录前言下载hadoop安装hadoop配置hadoophadoop-env.shyarn-env.shslaves更新*.xml配置文件core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml将had... 阅读全文

posted @ 2019-03-24 10:12 LestatZ 阅读(1809) 评论(0) 推荐(0)

Mac上搭建Hadoop环境(1) — 虚拟机的安装及SSH免密设置

摘要：文章目录前言准备工作安装虚拟机虚拟机网络设置设置静态ip更新hosts文件设置SSH免密测试前言准备在自己的MBP上搭建一个小的Hadoop集群玩玩，顺便看看会遇到什么坑。初步打算设置三个节点，其中将MBP设置为master节点，另外用虚拟机创建两个slav... 阅读全文

posted @ 2019-03-23 22:03 LestatZ 阅读(1265) 评论(0) 推荐(0)

Mac上ssh localhost免密失败该如何解决

摘要：前言今天准备利用自己的MBP搭建一个Hadoop小集群，结果在Mac上配置完ssh免密登陆的时候，使用ssh localhost测试时，总是弹出输入密码的提示。研究了一番, 记录下解决过程解决过程首先使用ssh -v localhost 观察debug信息,... 阅读全文

posted @ 2019-03-23 20:20 LestatZ 阅读(1115) 评论(0) 推荐(0)

HUE中一些重要元数据表的DDL整理

摘要：收集记录了一些HUE中常用的元数据表的表结构，主要有： auth_permission auth_user axes_accessattempt axes_accesslog beeswax_queryhistory beeswax_session desktop_document2 具体DDL如下阅读全文

posted @ 2019-03-21 14:25 LestatZ 阅读(562) 评论(0) 推荐(0)

Autosys中ON_HOLD和ON_ICE的区别

摘要：对于Autosys中作业ON_HOLD和ON_ICE的区别，整理如下：ON HOLDON ICE表示作业处于暂停状态，并且在我们将其取消保留之前无法运行。表示作业已从作业流中删除，但仍定义任然在。该作业不会被启动，它会保持ON ICE，直到它收到JOB_... 阅读全文

posted @ 2019-03-21 14:07 LestatZ 阅读(547) 评论(0) 推荐(0)

Spark结构化API的执行过程——Logical Plan & Physical Plan

摘要：执行的基本步骤简单来说，Spark 对代码中Structured API的执行主要有以下几个步骤：我们可以通过console(如spark-shell)或者submit job(spark-submit)等方法将我们的代码提交到Spark。Spark使用 Catalyst Optimizer 优阅读全文

posted @ 2019-03-21 10:35 LestatZ 阅读(1425) 评论(1) 推荐(0)

关于Spark中Columns的引用方法

摘要：在Spark中有多种可以构建或者引用columns的方法，但是最简单的还是使用col 或者column函数。方法如下：在Scala中，还有其他一些特殊的并且更方便的方法来引用columns。例如以下的语法糖同样可以用来引用或者创建一个column(性能上没有差别)： $ 允许我们指定某个字符串来引阅读全文

posted @ 2019-03-19 11:52 LestatZ 阅读(822) 评论(0) 推荐(0)

关于Spark Dataset API中的Typed transformations和Untyped transformations

摘要：文章目录前言关于Dataset 关于Dataset API Typed and Un-typed APIs 关于Transformations Typed transformations vs Untyped transformations 总结参考资料文章目录前言关于Dataset 关阅读全文

posted @ 2019-03-17 19:37 LestatZ 阅读(543) 评论(0) 推荐(0)

关于Kafka Consumer 与 Partitions

摘要：Consumers and Consumer Groups 假设我们有一个应用程序需要从Kafka主题中读取消息，对它们运行一些简单的验证，并将结果写入另一个数据存储中。因此，我们需要将创建一个Consumer对象，订阅相应的主题，并开始接收消息，验证它们并编写结果。这可能会有一段时间，但如果写阅读全文

posted @ 2019-03-16 19:04 LestatZ 阅读(926) 评论(0) 推荐(0)

使用sed根据变量值注释掉文件中相匹配的记录行

摘要：问题描述有批量的profile文件需要更新，因为其中某些环境变量的值需要更新，于是利用sed命令写了如下函数，方便以后使用。代码展示阅读全文

posted @ 2019-03-13 20:35 LestatZ 阅读(600) 评论(0) 推荐(0)

sqoop export to teradata时出现java.lang.NullPointerException

摘要：在使用sqoop export时指定了 –driver com.teradata.jdbc.TeraDriver测试时候会出现以下错误：Error: java.lang.NullPointerException atcom.teradata.tdgss.j... 阅读全文

posted @ 2019-03-13 11:13 LestatZ 阅读(682) 评论(0) 推荐(0)

Shell中获取脚本的绝对路径$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd)

摘要：文章目录示例代码代码解释总结文章目录示例代码代码解释总结示例代码代码解释总结示例代码代码解释总结示例代码代码解释总结示例代码代码解释总结我们可以在bash中使用以下命令获取所执行脚本的绝对路径： BASH_SOURCE[0] - 等价于 BASH_SOURCE 阅读全文

posted @ 2019-03-12 10:37 LestatZ 阅读(2125) 评论(0) 推荐(0)

关于Kafka Replication机制

摘要：Replication Kafka的replication复制机制是其可靠性的保证，即为每个分区数据提供多个副本。每个Kafka topic包含有多个分区，分区是kafka存储数据的基本单位。一个分区只能存储在同一个硬盘上。 Kafka保证每一个分区内的消息的顺序，无论这个分区是在线(availa 阅读全文

posted @ 2019-03-11 15:58 LestatZ 阅读(312) 评论(0) 推荐(0)

Linux中sed命令的用法举例

摘要：文章目录前言基本语法常用选项用法举例打印替换删除参考资料文章目录前言基本语法常用选项用法举例打印替换删除参考资料前言基本语法常用选项用法举例打印替换删除参考资料基本语法常用选项用法举例打印替换删除打印替换删除前言 sed - st 阅读全文

posted @ 2019-03-10 11:05 LestatZ 阅读(1210) 评论(0) 推荐(0)

Linux中find命令的用法举例

摘要：文章目录前言 find用法举例基本用法列出当前目录和子目录下的所有文件查找特定目录下的文件查找特定文件名的文件查找特定的文件类型在多个目录下查找反向查找进阶用法限制目录查找的深度查找指定权限的文件基于文件拥有者和用户组的查找基于日期和时间的查找基于文件大小的查找找出空文阅读全文

posted @ 2019-03-09 20:57 LestatZ 阅读(1075) 评论(0) 推荐(0)

遗忘症患者的待办事项TO-DO工具推荐

摘要：感觉年纪大了，事情多了，很多事情一开始记得但是后来就忘记了，于是今天就想找一个to-do类的软件来拯救我的拯救遗忘症。首先，整理下我的需求，或者说我对这个app期望的功能：可跨平台使用跨平台这点对我来说很重要，最好就是能在电脑端(Windows/macOS)... 阅读全文

posted @ 2019-03-09 20:04 LestatZ 阅读(492) 评论(0) 推荐(0)

关于pig中的bytearray

摘要：在pig load数据时候，如果不指定类型，则字段类型默认为bytearray。然后pig会根据上下文，隐式转换数据。 Map类型的值默认为bytearray类型 bytearray类型在pig中没有常量表示在定义schema时，我们可以只提供字段名字而不指定字段类型; 在这种情况下，字段类型默认阅读全文

posted @ 2019-03-07 22:17 LestatZ 阅读(265) 评论(0) 推荐(0)

Hive Insert Overwrite是否会产生临时文件

摘要：在Hive中使用INSERT OVERWRITE时，数据会先被写入到数据文件夹的临时文件内，类似于 .hive-staging_hive_ 开头的文件然后删除所有原文件，将临时文件重命名为”原文件“ 参考资料 what-is-the-behaviour-of-select-during-an-i 阅读全文

posted @ 2019-03-02 23:12 LestatZ 阅读(988) 评论(0) 推荐(0)

Python中使用Scrapy爬虫抓取上海链家房价信息

摘要：文章目录前言准备工作创建一个新的Scrapy项目定义一个爬虫Spider导出抓取数据保存数据到数据库(MongoDB)前言之前用python写了一个简单的爬虫项目用来抓取上海链家上的一些房价信息，整理了下代码，特此记录准备工作安装Scrapy创建一个新的Sc... 阅读全文

posted @ 2019-03-02 12:06 LestatZ 阅读(489) 评论(0) 推荐(0)

一些程序员必备的英语词汇及释义

摘要：文章目录前言词汇表前言看书整理的时候遇到一些词汇不知道怎么翻译成中文好，于是整理了一些词汇解释的笔记，整理成如下词汇表词汇表angle brackets 尖括号 iterate over 迭代 array buffers 数组缓冲 i... 阅读全文

posted @ 2019-03-02 10:07 LestatZ 阅读(245) 评论(0) 推荐(0)

ETL工具Talend最佳实践

摘要：文章目录前言最佳实践前言和Talend这款软件打交道有一段时间了，主要用它来做一些ETL相关的作业开发，以下总结了一些自己配置与开发过程中的最佳实践。最佳实践可以通过修改Talend Studio 的 .ini 配置文件来给其分配更多的内存，例如，以下是我在... 阅读全文

posted @ 2019-03-01 21:24 LestatZ 阅读(866) 评论(0) 推荐(0)

spark-submit使用yarn cluster模式时如何获取applicationId？

摘要：文章目录问题描述什么是applicationId 解决方法文章目录问题描述什么是applicationId 解决方法问题描述什么是applicationId 解决方法问题描述什么是applicationId 解决方法问题描述什么是applicationId 解决方法问题描述阅读全文

posted @ 2019-03-01 20:15 LestatZ 阅读(1830) 评论(0) 推荐(0)

On-heap vs Off-heap 堆内内存与堆外内存

摘要：JVM主要的内存区域有heapstack其它寄存器。heap主要是用来存储对象实例及数组值，可以认为java中所有通过new创建的对象都在此分配。On-heap是指在堆内内存，由GC进行创建回收，可以通过参数-Xms(最小)和-Xmx(最大)来控制Off-h... 阅读全文

posted @ 2019-03-01 19:24 LestatZ 阅读(2153) 评论(0) 推荐(0)

Spark中RDD、DataFrame和DataSet的区别

摘要：文章目录前言 RDD、DataFrame和DataSet的定义 RDD、DataFrame和DataSet的比较 Spark版本数据表示形式数据格式编译时类型安全序列化垃圾回收效率/内存使用编程语言支持聚合操作(Aggregation) 结论文章目录前言 RDD、DataFra 阅读全文

posted @ 2019-03-01 15:50 LestatZ 阅读(7811) 评论(0) 推荐(0)

如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory

摘要：文章目录前言一些资源参数设置的基本知识不同配置的优劣分析第一种方法：使用较小的executors 第二种方法：使用较大的executors 第三种方法：使用优化的executors 文章目录前言一些资源参数设置的基本知识不同配置的优劣分析第一种方法：使用较小的executors 第二阅读全文

posted @ 2019-03-01 13:47 LestatZ 阅读(6620) 评论(1) 推荐(0)

一些常用的Spark SQL调优技巧

摘要：文章目录一些常用的Spark SQL调优技巧文章目录一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧一些常用的Spark SQL调优技巧使用缓存表在sparksql中，当我们创建表时，我阅读全文

posted @ 2019-03-01 12:49 LestatZ 阅读(3717) 评论(0) 推荐(0)

LestatZ

03 2019 档案

公告