03 2017 档案

摘要:写在前面的话 本人长期关注数据挖掘与机器学习相关前沿研究。欢迎和我交流。 我自己测试了一下这个版本,总的来说更加稳定,新增的特性并没有一一测试,仅凭kafk client来说,是达到了生产环境的使用。 使用阿里云服务器的话,使用清华的节点下载是巨快的。(http://mirrors.tuna.tsi 阅读全文
posted @ 2017-03-31 20:13 cutd 阅读(4950) 评论(0) 推荐(0)
摘要:Spark结构式流编程指南 概览 Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使 阅读全文
posted @ 2017-03-20 17:13 cutd 阅读(6514) 评论(1) 推荐(4)