摘要: 介绍 实现了一个简单的从实时日志文件监听,写入socket服务器,再接入Storm计算的一个流程。 源码 日志监听实时写入socket服务器 [java] view plain copy package socket; import java.io.BufferedReader; import ja 阅读全文
posted @ 2017-05-25 18:08 thinker1017 阅读(268) 评论(0) 推荐(0)
摘要: 输入: 日期 ...cookie id. ...商品id.. xx xx xx 输出: 商品id 商品id列表(按优先级排序,用逗号分隔) xx xx 比如: id1 id3,id0,id4,id2 id2 id0,id5 整个计算过程分为4步 1、提取原始日志日期,cookie id,商品id信息 阅读全文
posted @ 2017-05-25 17:58 thinker1017 阅读(263) 评论(0) 推荐(0)
摘要: 目的 实时监听多个目录下的日志文件,如有新文件切换到新文件,并同步写入kafka,同时记录日志文件的行位置,以应对进程异常退出,能从上次的文件位置开始读取(考虑到效率,这里是每100条记一次,可调整) 源码 [java] view plain copy import java.io.Buffered 阅读全文
posted @ 2017-05-25 17:51 thinker1017 阅读(486) 评论(0) 推荐(0)
摘要: 目的 实时监听某目录下的日志文件,如有新文件切换到新文件,并同步写入kafka,同时记录日志文件的行位置,以应对进程异常退出,能从上次的文件位置开始读取(考虑到效率,这里是每100条记一次,可调整) 源码: [java] view plain copy import java.io.Buffered 阅读全文
posted @ 2017-05-25 17:47 thinker1017 阅读(958) 评论(0) 推荐(0)
摘要: SDK1.7新增的nio WatchService能完美解决这个问题。美中不足是如果部署在window系统下会出现莫名其妙的文件夹占用异常导致子目录监听失效,linux下则完美运行。这个问题着实让人头疼。如果有童鞋找到问题根源请一起探讨。 这里简单的列出用Servlet实现的基本类供大家参考。首先是 阅读全文
posted @ 2017-05-25 17:32 thinker1017 阅读(2067) 评论(0) 推荐(1)
摘要: 目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍 impala与presto性能相当,SparkSql逊色不少。 目前看presto相比impal 阅读全文
posted @ 2017-05-25 17:13 thinker1017 阅读(7146) 评论(1) 推荐(0)
摘要: 1. Presto 是什么 Facebook presto是什么,继Facebook创建了HIVE神器后的又一以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询,聚合,JOIN以及窗口函数等。除了Facebook这个创造都在使用外 阅读全文
posted @ 2017-05-25 16:50 thinker1017 阅读(2398) 评论(0) 推荐(0)