摘要: http://blog.51cto.com/wangxy/1952591 李钰,花名绝顶,WOTA全球架构与运维技术峰会分享嘉宾,现任阿里巴巴搜索事业部高级技术专家,HBase开源社区PMC & committer。开源技术爱好者,主要关注分布式系统设计、大数据基础平台建设等领域。连续3年基于HBa 阅读全文
posted @ 2018-04-13 15:18 一天不进步,就是退步 阅读(260) 评论(0) 推荐(0)
摘要: http://blog.51cto.com/13527416/2051506 背景 作为中国最大的在线教育站点,目前沪江日志服务的用户包含网校,交易,金融,CCTalk 等多个部门的多个产品的日志搜索分析业务,每日产生的各类日志有好十几种,每天处理约10亿条(1TB)日志,热数据保留最近7天数据,冷 阅读全文
posted @ 2018-04-13 15:04 一天不进步,就是退步 阅读(201) 评论(0) 推荐(0)
摘要: http://blog.51cto.com/xpleaf/2093952 1 概述 在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL、HBase等。 基于面向接口的编码思想来开发,因此这个系统具有一定的扩展性,有兴趣的朋友直接看一下代码, 阅读全文
posted @ 2018-04-13 14:10 一天不进步,就是退步 阅读(2954) 评论(2) 推荐(2)