摘要:
以前公司的数据日志是每天从生产数据库导出到数据服务器,再通过一个python脚本分析这些日志并存入mysql当中,这种方式在数据量小的情况下还没什么事,数据量一大,所需时间是几何增长。有段时间每天光apache log解压之后就有几十个G,虽然通过很多手段比如减少查询,减少单条数据插入,使用LOAD将数据导入数据库,但所需时间还是要很久。为了减少每天log分析的时间以及数据的稳定性,决定搭建一个hadoop系统,使用hadoop map/reduce来并行的处理log。 具我分析,目前数据分析系统的主要瓶颈在于数据文件分析,数据的提取以及数据库的查询操作,而不在于数据的插入操作,我们... 阅读全文
posted @ 2011-04-10 23:10
酱油哥
阅读(388)
评论(0)
推荐(0)

浙公网安备 33010602011771号