2016年5月7日
摘要: 1、环境: 1.1、cassandra 集群: 用于日志数据存储 1.2、spark集群: 用户后期的实时计算及批处理 1.3、codis 集群: 用于缓存一些基本数据如IP归属地,IP经纬度等,当日志上来,对日志进行补全 1.4、postgres数据库: 1、用于存储维度表 2、存储统计结果 1. 阅读全文
posted @ 2016-05-07 20:00 zhangxuhui 阅读(2094) 评论(0) 推荐(0) 编辑
摘要: spark streaming 不同于sotm,是一种准实时处理系统。storm 中,把批处理看错是时间教程的实时处理。而在spark streaming中,则反过来,把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数,分别如下: 窗口时间w 阅读全文
posted @ 2016-05-07 17:25 zhangxuhui 阅读(2508) 评论(0) 推荐(0) 编辑