白竹山 - 博客园

2020年5月17日

关于tez-ui的"All DAGs"和"Hive Queries"页面信息为空的问题解决过程

摘要：近段时间发现公司的HDP大数据平台的tez-ui页面不能用了，页面显示为空，导致通过hive提交的sql不能方便地查找到Yarn上对应的applicationId，只能通过beeline的屏幕输出信息、hiveserver2的日志、yarn的日志等一步步去查找，非常麻烦（查找方法见上一篇博客“如何找阅读全文

posted @ 2020-05-17 08:36 白竹山阅读(1548) 评论(0) 推荐(0) 编辑

2020年5月4日

如何找到Hive提交的SQL相对应的Yarn程序的applicationId

摘要：最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过程中才有的写法，仅仅支持一些简单的变量替换，比如当前账期等。然后通过一个通用的shell脚本来执行hsql文件。该脚本是主要是调用了hive -f 阅读全文

posted @ 2020-05-04 18:38 白竹山阅读(5108) 评论(0) 推荐(1) 编辑

2019年12月4日

浅谈函数式编程

摘要：函数式编程（Functional Programming）是一种编程风格，它是相对于指令式编程风格而言的，常见的面向对象编程就是指令式编程风格。指令式编程是面向计算机硬件的抽象，有变量（对应着存储单元），赋值语句（获取、存储指令），表达式（内存引用和算术运算）和控制语句（跳转语句）。而函数式编程阅读全文

posted @ 2019-12-04 20:45 白竹山阅读(1063) 评论(0) 推荐(0) 编辑

2019年11月26日

理解Spark SQL(三）—— Spark SQL程序举例

摘要：上一篇说到，在Spark 2.x当中，实际上SQLContext和HiveContext是过时的，相反是采用SparkSession对象的sql函数来操作SQL语句的。使用这个函数执行SQL语句前需要先调用DataFrame的createOrReplaceTempView注册一个临时表，所以关键是先阅读全文

posted @ 2019-11-26 00:21 白竹山阅读(1584) 评论(0) 推荐(1) 编辑

2019年11月21日

理解Spark SQL(二）—— SQLContext和HiveContext

摘要：使用Spark SQL，除了使用之前介绍的方法，实际上还可以使用SQLContext或者HiveContext通过编程的方式实现。前者支持SQL语法解析器（SQL-92语法），后者支持SQL语法解析器和HiveSQL语法解析器，默认为HiveSQL语法解析器，用户可以通过配置切换成SQL语法解析器来阅读全文

posted @ 2019-11-21 23:41 白竹山阅读(6754) 评论(0) 推荐(0) 编辑

2019年11月20日

理解Spark SQL(一）—— CLI和ThriftServer

摘要： Spark SQL主要提供了两个工具来访问hive中的数据，即CLI和ThriftServer。前提是需要Spark支持Hive，即编译Spark时需要带上hive和hive-thriftserver选项，同时需要确保在$SPARK_HOME/conf目录下有hive-site.xml配置文件（可以阅读全文

posted @ 2019-11-20 21:19 白竹山阅读(2877) 评论(0) 推荐(2) 编辑

2019年11月19日

理解Spark运行模式（三）(STANDALONE和Local)

摘要：前两篇介绍了Spark的yarn client和yarn cluster模式，本篇继续介绍Spark的STANDALONE模式和Local模式。下面具体还是用计算PI的程序来说明，examples中该程序有三个版本，分别采用Scala、Python和Java语言编写。本次用Java程序JavaSp 阅读全文

posted @ 2019-11-19 20:44 白竹山阅读(1169) 评论(0) 推荐(0) 编辑

2019年11月18日

理解Spark运行模式（二）(Yarn Cluster)

摘要：上一篇说到Spark的yarn client运行模式，它与yarn cluster模式的主要区别就是前者Driver是运行在客户端，后者Driver是运行在yarn集群中。yarn client模式一般用在交互式场景中，比如spark shell, spark sql等程序，但是该模式下运行在客户端阅读全文

posted @ 2019-11-18 21:38 白竹山阅读(1812) 评论(0) 推荐(0) 编辑

2019年11月17日

理解Spark运行模式（一）(Yarn Client)

摘要： Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种，其中最为常见的是YARN运行模式，它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。本文作为第一篇，先结合SparkPi程序来说明Yarn 阅读全文

posted @ 2019-11-17 23:41 白竹山阅读(1823) 评论(0) 推荐(0) 编辑

公告