摘要: 转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQ 阅读全文
posted @ 2016-12-15 17:01 大葱拌豆腐 阅读(811) 评论(0) 推荐(0)
摘要: 转载自:http://lxw1234.com/archives/2015/11/569.htm 作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上 阅读全文
posted @ 2016-12-15 12:34 大葱拌豆腐 阅读(637) 评论(0) 推荐(0)