随笔分类 -  spark

大数据分析实践。
摘要:答案: 两个坑, 性能坑和线程坑 DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一 阅读全文
posted @ 2016-09-08 15:00 问道大数据 阅读(21001) 评论(0) 推荐(0)
摘要:date_parameter <- "2016-08-01"start_date<-as.Date(date_parameter)dayCount_parameter = 1array = strsplit(as.character(start_date),"-")year = as.charact 阅读全文
posted @ 2016-08-12 11:57 问道大数据 阅读(363) 评论(0) 推荐(0)
摘要:Growth hacker是2010硅谷提出来的, 线上有很多相关的文章, 国内也有范冰出的一本同名书籍, 知乎上也有不少讨论。 我在这里只说一下, 自己对growth hacking的肤浅理解。 首先是字面上的理解, growth hacking。 growth是目标, hacking是手段和方法 阅读全文
posted @ 2016-08-08 15:39 问道大数据 阅读(1293) 评论(0) 推荐(0)
摘要:为了避免不必要的麻烦。 一些数据讲的不太清楚, 关键看爆点的思路。 通过大数据统计分析, 我发现可以用一个线性公式完美的拟合一个用户转化环节。并依据此公式对近期没有发生的数据做出预测。 这就是大数据的魅力所在吧。 依据以上发现, 我觉得至少我们这个产品,套用互联网的漏斗模型,在每两个环节之间的转化模 阅读全文
posted @ 2016-08-08 12:12 问道大数据 阅读(580) 评论(1) 推荐(0)
摘要:写hive SQL查询, 需要从导入的参数, 自动累加日期。 从而实现一个自动的,多个日期的统计过程 R语言的日期运算超级简单。 > test<-Sys.Date() > test [1] "2016-07-29" > test = test+1 > test [1] "2016-07-30" 如果 阅读全文
posted @ 2016-07-29 13:53 问道大数据 阅读(580) 评论(0) 推荐(0)
摘要:昨天写完R脚本 没测试就发到博客里, 结果实际运行发现很慢,运行时间在2小时以上, 查看spark控制台, 大量时间消耗在count上, 产生的stage多大70多个 。 分析原因。 1 select *可以优化, 2 join操作可以放倒hive sql里的尽量放到hive sql里 这两个优化, 阅读全文
posted @ 2016-07-29 11:52 问道大数据 阅读(554) 评论(0) 推荐(0)
摘要:上周我们这个10人的小团队开发的推荐拉新系统, 日拉新人数已接近4万人。过去几个月这个系统从无到有, 拉新从日增几千稳步增长到日增几万, 同事们几个月来,每天工作13个小时以上,洗澡时间都没有, 有时就住在公司, 回家怕吵到家人,只能睡客厅地板, 周日也不能保证休息。 大家的全力投入,不懈努力才能有 阅读全文
posted @ 2016-07-28 21:29 问道大数据 阅读(765) 评论(1) 推荐(0)
摘要:intersect except是spark提供的集合差集运算, 但是要求参与运算的两个dataframe,有相同的data Schema。 如果我想从 集合1(attribute1, attribute2, attribute3)求 attribute2 出现在另一个集合2(attribute2, 阅读全文
posted @ 2016-07-28 21:26 问道大数据 阅读(7407) 评论(0) 推荐(0)