2010 年 5月 20 日随笔档案 - chp008

2010年5月20日

摘要：转载----http://daoexception.javaeye.com/blog/539473众所周知，网络爬虫的最基本原理就是模拟HTTP协议向指定网站发送请求，从而从服务器端返回的网页源代码中抽取具有实用价值的信息（也可能下一次任务队列的地址）。这中间涉及到很多算法，根据网站不同域名，网站网页更新速度，网站结构深度，设定爬虫不同的爬取策略。爬虫可以从一些简单的网站上直接获取网页源代码，... 阅读全文

posted @ 2010-05-20 17:00 chp008 阅读(1254) 评论(0) 推荐(1)

chp008

萌萌的IT人

公告