03 2019 档案

摘要:前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用程序崩溃。 但这类问题也经常发生,因为Driver 收集了太多的数据回到驱动程序,使其内存不足。 主要症状 Spark应用程序无应答或者崩溃 Driver日 阅读全文
posted @ 2019-03-30 11:12 LestatZ 阅读(1177) 评论(0) 推荐(0)
摘要:前言 Join和Aggregation操作都可能引起Shuffle,所以这类问题一般具有相似的症状和解决办法。 主要症状 Join stage可能一直在运行,它可能包含一个或者多个task。 该Join stage前后的stage看起来一切正常。 可能的解决方法 许多Join可以被手动或自动)优化到 阅读全文
posted @ 2019-03-30 10:31 LestatZ 阅读(843) 评论(0) 推荐(0)
摘要:前言 如果你程序中的聚合速度较慢,请先查看 "Spark Stragglers/任务执行缓慢" 部分。 主要症状 在执行 groupby 操作时,任务执行缓慢 聚合操作的后序操作也很缓慢 可能的原因 这类问题并没有固定的解决方法。 有时候,由于作业中的数据有一些偏斜的键(即数据倾斜),导致作业执行缓 阅读全文
posted @ 2019-03-30 10:16 LestatZ 阅读(548) 评论(0) 推荐(0)
摘要:记得之前连接i-Shanghai时都能自动弹出登陆页面,但是最近使用时,虽然登陆页面能够弹出,但是该页面并不能正常打开。检查了一下,原来是因为之前设置了DNS,导致域名解析失效。解决步骤如下:在网络设置中,删掉自定义的DNS配置并保存。断开i-Shangha... 阅读全文
posted @ 2019-03-27 10:57 LestatZ 阅读(3580) 评论(0) 推荐(0)
摘要:文章目录 前言 主要症状 可能的原因 可能的解决方法 总结 参考资料 文章目录 前言 主要症状 可能的原因 可能的解决方法 总结 参考资料 前言 主要症状 可能的原因 可能的解决方法 总结 参考资料 主要症状 可能的原因 可能的解决方法 前言 在优化应用程序时,这类问题非常常见,大多数时候可能是由于 阅读全文
posted @ 2019-03-27 10:21 LestatZ 阅读(1198) 评论(0) 推荐(0)
摘要:文章目录 Spark中的多任务处理 一个顺序作业的例子 一个有缺陷的并发作业的例子 一个优化过的并发作业的例子 参考资料 文章目录 Spark中的多任务处理 一个顺序作业的例子 一个有缺陷的并发作业的例子 一个优化过的并发作业的例子 参考资料 Spark中的多任务处理 一个顺序作业的例子 一个有缺陷 阅读全文
posted @ 2019-03-26 15:57 LestatZ 阅读(8401) 评论(0) 推荐(0)
摘要:文章目录 前言 Spark作业无法启动 运行前的出现错误 运行中出现错误 参考资料 文章目录 前言 Spark作业无法启动 运行前的出现错误 运行中出现错误 参考资料 前言 Spark作业无法启动 运行前的出现错误 运行中出现错误 参考资料 前言 Spark作业无法启动 运行前的出现错误 运行中出现 阅读全文
posted @ 2019-03-26 14:20 LestatZ 阅读(1501) 评论(0) 推荐(0)
摘要:关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shell或者其他交互模式中,SparkSession已经预先被创建好了,但在正常编写的Spark程序中,我们必须手动创建SparkSession。 在一些遗留的Spark代码中,我们一般使用 阅读全文
posted @ 2019-03-26 11:15 LestatZ 阅读(972) 评论(0) 推荐(0)
摘要:文章目录 什么是Checkpointing 为什么使用Checkpointing 哪些RDD需要使用Checkpointing Checkpointing和Cache的区别 参考资料 文章目录 什么是Checkpointing 为什么使用Checkpointing 哪些RDD需要使用Checkpoi 阅读全文
posted @ 2019-03-25 18:42 LestatZ 阅读(339) 评论(0) 推荐(0)
摘要:文章目录前言主要步骤安装mysql配置hive元数据库Hive安装设置环境变量设置配置文件准备mysql-connector-java初始化元数据启动metastore测试前言之前已经完成了hadoop集群的安装,测试了HDFS的使用,现在准备在此基础上,继... 阅读全文
posted @ 2019-03-24 19:38 LestatZ 阅读(1511) 评论(0) 推荐(0)
摘要:文章目录前言下载hadoop安装hadoop配置hadoophadoop-env.shyarn-env.shslaves更新*.xml配置文件core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml将had... 阅读全文
posted @ 2019-03-24 10:12 LestatZ 阅读(1809) 评论(0) 推荐(0)
摘要:文章目录前言准备工作安装虚拟机虚拟机网络设置设置静态ip更新hosts文件设置SSH免密测试前言准备在自己的MBP上搭建一个小的Hadoop集群玩玩,顺便看看会遇到什么坑。初步打算设置三个节点,其中将MBP设置为master节点,另外用虚拟机创建两个slav... 阅读全文
posted @ 2019-03-23 22:03 LestatZ 阅读(1265) 评论(0) 推荐(0)
摘要:前言今天准备利用自己的MBP搭建一个Hadoop小集群,结果在Mac上配置完ssh免密登陆的时候,使用ssh localhost测试时,总是弹出输入密码的提示。研究了一番, 记录下解决过程解决过程首先使用ssh -v localhost 观察debug信息,... 阅读全文
posted @ 2019-03-23 20:20 LestatZ 阅读(1115) 评论(0) 推荐(0)
摘要:收集记录了一些HUE中常用的元数据表的表结构,主要有: auth_permission auth_user axes_accessattempt axes_accesslog beeswax_queryhistory beeswax_session desktop_document2 具体DDL如下 阅读全文
posted @ 2019-03-21 14:25 LestatZ 阅读(562) 评论(0) 推荐(0)
摘要:对于Autosys中作业ON_HOLD和ON_ICE的区别,整理如下:ON HOLDON ICE表示作业处于暂停状态,并且在我们将其取消保留之前无法运行。表示作业已从作业流中删除,但仍定义任然在 。该作业不会被启动, 它会保持ON ICE,直到它收到JOB_... 阅读全文
posted @ 2019-03-21 14:07 LestatZ 阅读(547) 评论(0) 推荐(0)
摘要:执行的基本步骤 简单来说,Spark 对代码中Structured API的执行主要有以下几个步骤: 我们可以通过console(如spark-shell)或者submit job(spark-submit)等方法将我们的代码提交到Spark。Spark使用 Catalyst Optimizer 优 阅读全文
posted @ 2019-03-21 10:35 LestatZ 阅读(1425) 评论(1) 推荐(0)
摘要:在Spark中有多种可以构建或者引用columns的方法,但是最简单的还是使用col 或者column函数。方法如下: 在Scala中,还有其他一些特殊的并且更方便的方法来引用columns。例如以下的语法糖同样可以用来引用或者创建一个column(性能上没有差别): $ 允许我们指定某个字符串来引 阅读全文
posted @ 2019-03-19 11:52 LestatZ 阅读(822) 评论(0) 推荐(0)
摘要:文章目录 前言 关于Dataset 关于Dataset API Typed and Un-typed APIs 关于Transformations Typed transformations vs Untyped transformations 总结 参考资料 文章目录 前言 关于Dataset 关 阅读全文
posted @ 2019-03-17 19:37 LestatZ 阅读(543) 评论(0) 推荐(0)
摘要:Consumers and Consumer Groups 假设我们有一个应用程序需要从Kafka主题中读取消息,对它们运行一些简单的验证,并将结果写入另一个数据存储中。 因此,我们需要将创建一个Consumer对象,订阅相应的主题,并开始接收消息,验证它们并编写结果。 这可能会有一段时间,但如果写 阅读全文
posted @ 2019-03-16 19:04 LestatZ 阅读(926) 评论(0) 推荐(0)
摘要:问题描述 有批量的profile文件需要更新,因为其中某些环境变量的值需要更新,于是利用sed命令写了如下函数,方便以后使用。 代码展示 阅读全文
posted @ 2019-03-13 20:35 LestatZ 阅读(600) 评论(0) 推荐(0)
摘要:在使用sqoop export时指定了 –driver com.teradata.jdbc.TeraDriver测试时候会出现以下错误:Error: java.lang.NullPointerException atcom.teradata.tdgss.j... 阅读全文
posted @ 2019-03-13 11:13 LestatZ 阅读(682) 评论(0) 推荐(0)
摘要:文章目录 示例代码 代码解释 总结 文章目录 示例代码 代码解释 总结 示例代码 代码解释 总结 示例代码 代码解释 总结 示例代码 代码解释 总结 示例代码 代码解释 总结 我们可以在bash中使用以下命令获取所执行脚本的绝对路径: BASH_SOURCE[0] - 等价于 BASH_SOURCE 阅读全文
posted @ 2019-03-12 10:37 LestatZ 阅读(2125) 评论(0) 推荐(0)
摘要:Replication Kafka的replication复制机制是其可靠性的保证,即为每个分区数据提供多个副本。 每个Kafka topic包含有多个分区,分区是kafka存储数据的基本单位。一个分区只能存储在同一个硬盘上。 Kafka保证每一个分区内的消息的顺序,无论这个分区是在线(availa 阅读全文
posted @ 2019-03-11 15:58 LestatZ 阅读(312) 评论(0) 推荐(0)
摘要:文章目录 前言 基本语法 常用选项 用法举例 打印 替换 删除 参考资料 文章目录 前言 基本语法 常用选项 用法举例 打印 替换 删除 参考资料 前言 基本语法 常用选项 用法举例 打印 替换 删除 参考资料 基本语法 常用选项 用法举例 打印 替换 删除 打印 替换 删除 前言 sed - st 阅读全文
posted @ 2019-03-10 11:05 LestatZ 阅读(1210) 评论(0) 推荐(0)
摘要:文章目录 前言 find用法举例 基本用法 列出当前目录和子目录下的所有文件 查找特定目录下的文件 查找特定文件名的文件 查找特定的文件类型 在多个目录下查找 反向查找 进阶用法 限制目录查找的深度 查找指定权限的文件 基于文件拥有者和用户组的查找 基于日期和时间的查找 基于文件大小的查找 找出空文 阅读全文
posted @ 2019-03-09 20:57 LestatZ 阅读(1075) 评论(0) 推荐(0)
摘要:感觉年纪大了,事情多了,很多事情一开始记得但是后来就忘记了,于是今天就想找一个to-do类的软件来拯救我的拯救遗忘症。首先,整理下我的需求,或者说我对这个app期望的功能:可跨平台使用跨平台这点对我来说很重要,最好就是能在电脑端(Windows/macOS)... 阅读全文
posted @ 2019-03-09 20:04 LestatZ 阅读(492) 评论(0) 推荐(0)
摘要:在pig load数据时候,如果不指定类型,则字段类型默认为bytearray。然后pig会根据上下文,隐式转换数据。 Map类型的值默认为bytearray类型 bytearray类型在pig中没有常量表示 在定义schema时,我们可以只提供字段名字而不指定字段类型; 在这种情况下,字段类型默认 阅读全文
posted @ 2019-03-07 22:17 LestatZ 阅读(265) 评论(0) 推荐(0)
摘要:在Hive中使用INSERT OVERWRITE时, 数据会先被写入到数据文件夹的临时文件内,类似于 .hive-staging_hive_ 开头的文件 然后删除所有原文件,将临时文件重命名为”原文件“ 参考资料 what-is-the-behaviour-of-select-during-an-i 阅读全文
posted @ 2019-03-02 23:12 LestatZ 阅读(988) 评论(0) 推荐(0)
摘要:文章目录前言准备工作创建一个新的Scrapy项目定义一个爬虫Spider导出抓取数据保存数据到数据库(MongoDB)前言之前用python写了一个简单的爬虫项目用来抓取上海链家上的一些房价信息,整理了下代码,特此记录准备工作安装Scrapy创建一个新的Sc... 阅读全文
posted @ 2019-03-02 12:06 LestatZ 阅读(489) 评论(0) 推荐(0)
摘要:文章目录前言词汇表前言看书整理的时候遇到一些词汇不知道怎么翻译成中文好,于是整理了一些词汇解释的笔记,整理成如下词汇表词汇表angle brackets 尖括号 iterate over 迭代 array buffers 数组缓冲 i... 阅读全文
posted @ 2019-03-02 10:07 LestatZ 阅读(245) 评论(0) 推荐(0)
摘要:文章目录前言最佳实践前言和Talend这款软件打交道有一段时间了,主要用它来做一些ETL相关的作业开发,以下总结了一些自己配置与开发过程中的最佳实践。最佳实践可以通过修改Talend Studio 的 .ini 配置文件来给其分配更多的内存,例如,以下是我在... 阅读全文
posted @ 2019-03-01 21:24 LestatZ 阅读(866) 评论(0) 推荐(0)
摘要:文章目录 问题描述 什么是applicationId 解决方法 文章目录 问题描述 什么是applicationId 解决方法 问题描述 什么是applicationId 解决方法 问题描述 什么是applicationId 解决方法 问题描述 什么是applicationId 解决方法 问题描述 阅读全文
posted @ 2019-03-01 20:15 LestatZ 阅读(1830) 评论(0) 推荐(0)
摘要:JVM主要的内存区域有heapstack其它寄存器。heap主要是用来存储对象实例及数组值,可以认为java中所有通过new创建的对象都在此分配。On-heap是指在堆内内存,由GC进行创建回收,可以通过参数-Xms(最小)和-Xmx(最大)来控制Off-h... 阅读全文
posted @ 2019-03-01 19:24 LestatZ 阅读(2153) 评论(0) 推荐(0)
摘要:文章目录 前言 RDD、DataFrame和DataSet的定义 RDD、DataFrame和DataSet的比较 Spark版本 数据表示形式 数据格式 编译时类型安全 序列化 垃圾回收 效率/内存使用 编程语言支持 聚合操作(Aggregation) 结论 文章目录 前言 RDD、DataFra 阅读全文
posted @ 2019-03-01 15:50 LestatZ 阅读(7811) 评论(0) 推荐(0)
摘要:文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二种方法:使用较大的executors 第三种方法:使用优化的executors 文章目录 前言 一些资源参数设置的基本知识 不同配置的优劣分析 第一种方法:使用较小的executors 第二 阅读全文
posted @ 2019-03-01 13:47 LestatZ 阅读(6620) 评论(1) 推荐(0)
摘要:文章目录 一些常用的Spark SQL调优技巧 文章目录 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 一些常用的Spark SQL调优技巧 使用缓存表 在sparksql中,当我们创建表时,我 阅读全文
posted @ 2019-03-01 12:49 LestatZ 阅读(3717) 评论(0) 推荐(0)