摘要: 问题背景: 上周发现了一个spark job的执行时间从原来的10-15分钟延迟到了7个小时!wtf,这是出了什么事引起了这么大的性能问题!! 立马查看job的运行日志,发现多次运行都是在某一个固定的stage速度特别慢,大概在5000-6000s,这样的stage一共有3-4次。究竟是什么样的原因 阅读全文
posted @ 2018-06-25 16:40 J. Lingear 阅读(283) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/dr_guo/article/details/51182626 阅读全文
posted @ 2018-01-18 18:10 J. Lingear 阅读(739) 评论(0) 推荐(0) 编辑
摘要: pmod(datediff(order_date,'2000-01-02'),7) 阅读全文
posted @ 2018-01-18 18:08 J. Lingear 阅读(2500) 评论(0) 推荐(0) 编辑
摘要: 今天遇到这样一个需求场景,要取出 每一种分类(a,b组合分类) 符合条件的日期(字段c) 距离现在最近的10个日期 的数据 首先想到的是用sql筛选出符合某种条件的所有数据,这样的事情很简单 然后用脚本(python)遍历每一种组合(a,b),然后按日期c倒序排序 取前10 如果拿到这个数据后 还要 阅读全文
posted @ 2018-01-18 17:43 J. Lingear 阅读(2674) 评论(0) 推荐(0) 编辑
摘要: 原文:https://databricks.com/blog/2016/01/25/deep-learning-with-apache-spark-and-tensorflow.html by Tim Hunter 如何基于Spark做深度学习:从Mllib到keras,elephas http:/ 阅读全文
posted @ 2017-11-23 21:01 J. Lingear 阅读(1040) 评论(0) 推荐(0) 编辑
摘要: 开发过程中经常用到从master分支copy一个开发分支,下面我们就用命令行完成这个操作: 1. 切换到被copy的分支(master),并且从远端拉取最新版本 $git checkout master $git pull 2. 从当前分支拉copy开发分支 $git checkout -b dev 阅读全文
posted @ 2016-11-14 15:33 J. Lingear 阅读(35077) 评论(0) 推荐(0) 编辑
摘要: grep -c -r --include="*.java" '.*' ./* | awk -F ":" '{sum+=$2} END {print sum}' 阅读全文
posted @ 2016-10-27 12:04 J. Lingear 阅读(798) 评论(0) 推荐(0) 编辑
摘要: It is unclear which exceptions that can be thrown from the methods. It might be difficult to document and understand the vague interfaces. Use either 阅读全文
posted @ 2016-10-25 11:26 J. Lingear 阅读(1695) 评论(1) 推荐(0) 编辑
摘要: http://www.aboutyun.com/thread-6855-1-1.html 阅读全文
posted @ 2015-01-22 09:29 J. Lingear 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 传入一个map的参数,map里有一个tenantIds的List,在xml里先判断这个List的size是否大于o,然后通过foreach 构造一个in后面括号里的元素,具体的xml如下: <if test="tenantIds.size() > 0"> AND A.PROC_TARGET_ID I 阅读全文
posted @ 2013-07-19 10:56 J. Lingear 阅读(677) 评论(0) 推荐(0) 编辑