随笔分类 -  自学爬虫笔记

摘要:检查一下爬虫编码时设置的header 的Accept-Encoding 是否为gzip, deflate, br 简单解决可以把这个属性去掉 另外一种解决方式就是对其解码,先获取网页的响应头,通过Content-Encoding来判断是gzip还是br br需要导入brotli包(需要下载)调用br 阅读全文
posted @ 2021-05-07 14:49 低谷还能再向下 阅读(427) 评论(0) 推荐(0)
摘要:在cmd虚拟环境目录下(使用pycharm的话alt+F12)键入: scrapy startproject item#item为项目名 接着建立爬虫,先进入项目目录下: cd item 然后输入命令建立爬虫: scrapy genspider spider_name news.cnblogs.co 阅读全文
posted @ 2021-04-25 13:25 低谷还能再向下 阅读(171) 评论(0) 推荐(0)