随笔档案「2019年9月20日」：爬虫下载页面 ... - HDU李少帅

2019年9月20日

摘要：简介爬虫下载页面代码简易下载似乎并没有把百度的html 下载下来多次尝试下载 5XX服务器错误并设置代理网站可能会把前面的字符串忽略然后可以只用后面的数字网站通过一个页面的链接下载支持对 robots.txt 的解析代理下载限速参考链接 https://tieba.baid 阅读全文

posted @ 2019-09-20 22:01 HDU李少帅阅读(366) 评论(0) 推荐(0)

爬虫查看站点的个数和解析网站使用的技术栈和找到网站的所有者

摘要：简介网站的个数可以作为自己要爬取时间的估算。技术栈可以知道自己要爬取的难度。网站的个数 www.baidu.com 然后输入 site:www.cnblogs.com 就可以知道博客园大概有多少个页面了。 1000万个左右。识别网站所采用技术栈找到网站的所有者阅读全文

posted @ 2019-09-20 19:47 HDU李少帅阅读(502) 评论(0) 推荐(0)

robots.txt 简单解析

摘要：简介 robots.txt 是一个规范，对于执行正常操作的爬虫理应遵守的规范. 例子博客园例子允许所有爬虫爬取网站任何地址。百度例子 User agent: Baiduspider 百度自己的爬虫 Disallow: /baidu 不允许自己的爬虫爬取百度的站点 https://www.bai 阅读全文

posted @ 2019-09-20 19:26 HDU李少帅阅读(607) 评论(0) 推荐(0)