摘要:
1、环境: 1.1、cassandra 集群: 用于日志数据存储 1.2、spark集群: 用户后期的实时计算及批处理 1.3、codis 集群: 用于缓存一些基本数据如IP归属地,IP经纬度等,当日志上来,对日志进行补全 1.4、postgres数据库: 1、用于存储维度表 2、存储统计结果 1. 阅读全文
摘要:
spark streaming 不同于sotm,是一种准实时处理系统。storm 中,把批处理看错是时间教程的实时处理。而在spark streaming中,则反过来,把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数,分别如下: 窗口时间w 阅读全文