2017 年 5月 25 日随笔档案 - thinker1017

2017年5月25日

摘要：介绍实现了一个简单的从实时日志文件监听，写入socket服务器，再接入Storm计算的一个流程。源码日志监听实时写入socket服务器 [java] view plain copy package socket; import java.io.BufferedReader; import ja 阅读全文

posted @ 2017-05-25 18:08 thinker1017 阅读(270) 评论(0) 推荐(0)

mapreduce实现"浏览该商品的人大多数还浏览了"经典应用

摘要：输入: 日期 ...cookie id. ...商品id.. xx xx xx 输出: 商品id 商品id列表(按优先级排序,用逗号分隔) xx xx 比如: id1 id3,id0,id4,id2 id2 id0,id5 整个计算过程分为4步 1、提取原始日志日期,cookie id,商品id信息阅读全文

posted @ 2017-05-25 17:58 thinker1017 阅读(265) 评论(0) 推荐(0)

java实时监听日志写入kafka(多目录)

摘要：目的实时监听多个目录下的日志文件，如有新文件切换到新文件，并同步写入kafka，同时记录日志文件的行位置，以应对进程异常退出，能从上次的文件位置开始读取（考虑到效率，这里是每100条记一次，可调整) 源码 [java] view plain copy import java.io.Buffered 阅读全文

posted @ 2017-05-25 17:51 thinker1017 阅读(488) 评论(0) 推荐(0)

java实时监听日志写入kafka

摘要：目的实时监听某目录下的日志文件，如有新文件切换到新文件，并同步写入kafka，同时记录日志文件的行位置，以应对进程异常退出，能从上次的文件位置开始读取（考虑到效率，这里是每100条记一次，可调整) 源码: [java] view plain copy import java.io.Buffered 阅读全文

posted @ 2017-05-25 17:47 thinker1017 阅读(959) 评论(0) 推荐(0)

Java实现系统目录实时监听更新。

摘要： SDK1.7新增的nio WatchService能完美解决这个问题。美中不足是如果部署在window系统下会出现莫名其妙的文件夹占用异常导致子目录监听失效，linux下则完美运行。这个问题着实让人头疼。如果有童鞋找到问题根源请一起探讨。这里简单的列出用Servlet实现的基本类供大家参考。首先是阅读全文

posted @ 2017-05-25 17:32 thinker1017 阅读(2070) 评论(0) 推荐(1)

impala presto SparkSql性能测试对比

摘要：目标是为测试impala presto SparkSql谁的性能更佳，以下结果底层查询的都是普通textfile snappy压缩后数据，规模为15台机器，若以orcfile、parquet速度能快数倍 impala与presto性能相当，SparkSql逊色不少。目前看presto相比impal 阅读全文

posted @ 2017-05-25 17:13 thinker1017 阅读(7152) 评论(1) 推荐(0)

实时查询引擎 - Facebook Presto 介绍与应用

摘要： 1. Presto 是什么 Facebook presto是什么，继Facebook创建了HIVE神器后的又一以SQL语言作为接口的分布式实时查询引擎，可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询，聚合，JOIN以及窗口函数等。除了Facebook这个创造都在使用外阅读全文

posted @ 2017-05-25 16:50 thinker1017 阅读(2401) 评论(0) 推荐(0)

公告