摘要: 以下纯属个人意见 spark作为一种实时或历史数据计算方案,有如下几个特点: 当然也有缺点: 写spark job的原则: 阅读全文
posted @ 2017-10-09 14:30 Els0n 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 承接上篇pyspark,这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计,kafka stream实时计算 要说一下,版本特别重要,一个是spark版本(<2, 2.0, >2.0),一个是scala版本(主要是<2.11和2.11),注意匹配 pom.xm 阅读全文
posted @ 2017-10-09 12:30 Els0n 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 这是年初写的一个job,用于对api非法访问(大量403)进行统计,并有其他后续手段。写的比较通俗易懂,做个sample记录下 数据源是kafka stream,实时计算。规则是mysql配置的,简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp 阅读全文
posted @ 2017-10-09 11:59 Els0n 阅读(1435) 评论(0) 推荐(0) 编辑