2012 年 4月 2 日随笔档案 - 糖拌咸鱼

2012年4月2日

摘要：前言：网络爬虫抓取下来的页面，都是大文本，应该如何存储呢？我觉得，如果存储在mysql 或是 sqlserver这种关系型数据库当中，应该不是很恰当的。首先，页面相对独立，基本没什么关系型可言，只有url或是描文本->页面这种简单的关系，而关系型数据库系统为了支持关系以及高效查询会增加很多额外的开销，这样得不偿失。不仅如此，爬虫在抓取页面工程中，效率应该很高，如果用关系型数据库存页面的华，短时间内会有大量的数据插入I/O，插入肯定会是一个瓶颈问题，这对数据库维护网络以及物理磁盘来说，压力也是比较大的。因此，我觉得直接存储为数据文本比较合适，开源的larbin爬虫，也采用的是文本方式的阅读全文

posted @ 2012-04-02 17:38 糖拌咸鱼阅读(8798) 评论(5) 推荐(0) 编辑

公告