2011 年 4月 10 日随笔档案 - 酱油哥

2011年4月10日

摘要：以前公司的数据日志是每天从生产数据库导出到数据服务器，再通过一个python脚本分析这些日志并存入mysql当中，这种方式在数据量小的情况下还没什么事，数据量一大，所需时间是几何增长。有段时间每天光apache log解压之后就有几十个G，虽然通过很多手段比如减少查询，减少单条数据插入，使用LOAD将数据导入数据库，但所需时间还是要很久。为了减少每天log分析的时间以及数据的稳定性，决定搭建一个hadoop系统，使用hadoop map/reduce来并行的处理log。具我分析，目前数据分析系统的主要瓶颈在于数据文件分析，数据的提取以及数据库的查询操作，而不在于数据的插入操作，我们... 阅读全文

posted @ 2011-04-10 23:10 酱油哥阅读(388) 评论(0) 推荐(0)

酱油哥

四十岁后，不滞于物，草木竹石，均可为剑。自此精修，渐而进于无剑胜有剑之境。

公告