会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
白竹山
博客园
首页
新随笔
联系
订阅
管理
2020年5月17日
关于tez-ui的"All DAGs"和"Hive Queries"页面信息为空的问题解决过程
摘要: 近段时间发现公司的HDP大数据平台的tez-ui页面不能用了,页面显示为空,导致通过hive提交的sql不能方便地查找到Yarn上对应的applicationId,只能通过beeline的屏幕输出信息、hiveserver2的日志、yarn的日志等一步步去查找,非常麻烦(查找方法见上一篇博客“如何找
阅读全文
posted @ 2020-05-17 08:36 白竹山
阅读(1729)
评论(0)
推荐(0)
2020年5月4日
如何找到Hive提交的SQL相对应的Yarn程序的applicationId
摘要: 最近的工作是利用Hive做数据仓库的ETL转换,大致方式是将ETL转换逻辑写在一个hsql文件中,脚本当中都是简单的SQL语句,不包含判断、循环等存储过程中才有的写法,仅仅支持一些简单的变量替换,比如当前账期等。然后通过一个通用的shell脚本来执行hsql文件。该脚本是主要是调用了hive -f
阅读全文
posted @ 2020-05-04 18:38 白竹山
阅读(5966)
评论(0)
推荐(1)
2019年12月4日
浅谈函数式编程
摘要: 函数式编程(Functional Programming)是一种编程风格,它是相对于指令式编程风格而言的,常见的面向对象编程就是指令式编程风格。 指令式编程是面向计算机硬件的抽象,有变量(对应着存储单元),赋值语句(获取、存储指令),表达式(内存引用和算术运算)和控制语句(跳转语句)。 而函数式编程
阅读全文
posted @ 2019-12-04 20:45 白竹山
阅读(1120)
评论(0)
推荐(0)
2019年11月26日
理解Spark SQL(三)—— Spark SQL程序举例
摘要: 上一篇说到,在Spark 2.x当中,实际上SQLContext和HiveContext是过时的,相反是采用SparkSession对象的sql函数来操作SQL语句的。使用这个函数执行SQL语句前需要先调用DataFrame的createOrReplaceTempView注册一个临时表,所以关键是先
阅读全文
posted @ 2019-11-26 00:21 白竹山
阅读(1691)
评论(0)
推荐(1)
2019年11月21日
理解Spark SQL(二)—— SQLContext和HiveContext
摘要: 使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现。前者支持SQL语法解析器(SQL-92语法),后者支持SQL语法解析器和HiveSQL语法解析器,默认为HiveSQL语法解析器,用户可以通过配置切换成SQL语法解析器来
阅读全文
posted @ 2019-11-21 23:41 白竹山
阅读(7125)
评论(0)
推荐(0)
2019年11月20日
理解Spark SQL(一)—— CLI和ThriftServer
摘要: Spark SQL主要提供了两个工具来访问hive中的数据,即CLI和ThriftServer。前提是需要Spark支持Hive,即编译Spark时需要带上hive和hive-thriftserver选项,同时需要确保在$SPARK_HOME/conf目录下有hive-site.xml配置文件(可以
阅读全文
posted @ 2019-11-20 21:19 白竹山
阅读(3052)
评论(0)
推荐(2)
2019年11月19日
理解Spark运行模式(三)(STANDALONE和Local)
摘要: 前两篇介绍了Spark的yarn client和yarn cluster模式,本篇继续介绍Spark的STANDALONE模式和Local模式。 下面具体还是用计算PI的程序来说明,examples中该程序有三个版本,分别采用Scala、Python和Java语言编写。本次用Java程序JavaSp
阅读全文
posted @ 2019-11-19 20:44 白竹山
阅读(1218)
评论(0)
推荐(0)
2019年11月18日
理解Spark运行模式(二)(Yarn Cluster)
摘要: 上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中。yarn client模式一般用在交互式场景中,比如spark shell, spark sql等程序,但是该模式下运行在客户端
阅读全文
posted @ 2019-11-18 21:38 白竹山
阅读(1894)
评论(0)
推荐(0)
2019年11月17日
理解Spark运行模式(一)(Yarn Client)
摘要: Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN运行模式,它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。 本文作为第一篇,先结合SparkPi程序来说明Yarn
阅读全文
posted @ 2019-11-17 23:41 白竹山
阅读(1897)
评论(0)
推荐(0)
公告