摘要: 写hive SQL查询, 需要从导入的参数, 自动累加日期。 从而实现一个自动的,多个日期的统计过程 R语言的日期运算超级简单。 > test<-Sys.Date() > test [1] "2016-07-29" > test = test+1 > test [1] "2016-07-30" 如果 阅读全文
posted @ 2016-07-29 13:53 问道大数据 阅读(580) 评论(0) 推荐(0)
摘要: 昨天写完R脚本 没测试就发到博客里, 结果实际运行发现很慢,运行时间在2小时以上, 查看spark控制台, 大量时间消耗在count上, 产生的stage多大70多个 。 分析原因。 1 select *可以优化, 2 join操作可以放倒hive sql里的尽量放到hive sql里 这两个优化, 阅读全文
posted @ 2016-07-29 11:52 问道大数据 阅读(555) 评论(0) 推荐(0)