摘要: 1. 检查robots.txt 大多数网站都会定义一robots.txt文件,这样可以了解爬取该网站时存在哪些限制,在爬取之前检查robots.txt文件这一宝贵资源可以最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索。 输入http://example.webscraping.com/ro 阅读全文
posted @ 2018-03-06 10:43 Fate0729 阅读(1118) 评论(0) 推荐(0)