摘要: 一 parent下pom.xml新增 1.私服地址 <distributionManagement> <repository> <id>bilibili-nexus-releases</id> <name>Nexus Release Repository</name> <url>http://xxx 阅读全文
posted @ 2020-09-03 11:04 songchaolin 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 问题描述: 20/06/29 10:25:47 WARN TaskSetManager: Lost task 66.0 in stage 1.0 (TID 21, jsszdatanode-157, executor 165): java.io.InvalidClassException: org. 阅读全文
posted @ 2020-06-29 11:48 songchaolin 阅读(1880) 评论(0) 推荐(0) 编辑
摘要: 启动一直报错 SLF4J: Found binding in [jar:file:/data/src/dr-elephant-2.1.7/lib/ch.qos.logback.logback-classic-1.0.13.jar!/org/slf4j/impl/StaticLoggerBinder. 阅读全文
posted @ 2020-06-18 18:47 songchaolin 阅读(307) 评论(0) 推荐(0) 编辑
摘要: sql 部分如下 select '20200607' as log_date, COUNT(distinct if(event_id='app.onepass-login.0.0.pv' AND (get_json_object(extended_fields,'$.refer_click') in 阅读全文
posted @ 2020-06-10 17:38 songchaolin 阅读(711) 评论(0) 推荐(0) 编辑
摘要: idea 选中Edit Congigurations 添加remote如下图 图中debug方式为listen (本地不通线上,线上通本地) 远程 hive 客户端修改{HIVE_HOME}/bin/ext/debug.sh 将HIVE_MAIN_CLIENT_DEBUG_OPTS、 HIVE_CH 阅读全文
posted @ 2020-06-10 12:16 songchaolin 阅读(907) 评论(0) 推荐(0) 编辑
摘要: 一 jstat 命令操作 -class 监视类装载,卸载数量,总空间及类装载所耗费时间。 -gc 监视java堆状况,包括eden区,2个survivor区、老年代、永久代等的容量、已用空间、GC时间合计等信息 -gccapacity 监视内容与-gc基本相同,但输出主要关注java 堆各个区域使用 阅读全文
posted @ 2020-05-17 01:10 songchaolin 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 一 背景 公司的hive节点,spark节点,livy节点数过多,使用spark,livy访问hive数据库无可避免涉及到hive udf更新发布。 二 example 1. 新建udf maven项目。pom.xml添加依赖 <dependency> <groupId>org.apache.hiv 阅读全文
posted @ 2020-05-13 14:50 songchaolin 阅读(661) 评论(0) 推荐(0) 编辑
摘要: 使用 apache livy时,进行高并发任务压测出现错误 pool-1-thread-111 start run xx.xx.xxx.xx [亲,你的任务正在节点 xx.xx.xxx.xx 的LivyServer 上飞, job history id: null] [Run Sql error: 阅读全文
posted @ 2020-05-09 16:43 songchaolin 阅读(910) 评论(0) 推荐(0) 编辑
摘要: spark sql使用自己封装的livy 引擎执行时有丢失数据情况。排查发现livy session页面中的sql有中文乱码。 之后在livy 源码中未找到相关序列化指定字符集的代码。回头排查自己的代码 修改完毕后重新执行 观察livy session中的sql。 果然乱码没了,执行结果集跟spar 阅读全文
posted @ 2020-05-09 16:30 songchaolin 阅读(588) 评论(0) 推荐(0) 编辑
摘要: sql样例 select * from open.dws_openmall_item_inc_d a where a.log_date = '日期' and business = 'mall' and a.item_id=10022085 hive 执行有两条数据 spark执行有一条数据,经过排查 阅读全文
posted @ 2020-05-06 15:45 songchaolin 阅读(1031) 评论(0) 推荐(0) 编辑