随笔分类 - 爬虫
摘要:反爬虫,非标准的json格式解析 今天写爬虫的时候,发现有一些数据都是通过非标准的 json 格式进行传输的,标准的 json 我们可以将其转化为 Python 中的数据类型,进行查询,但对于一些类似于 json 但又非标准 json 格式的字符,就会比较头疼了。 例如下面这样 hxbase_jso
阅读全文
摘要:Scrapy+selenium爬取简书全站 环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容 文字标题 作者 作者头像 发布日期 内容 文章连接 文章ID 思路 分析简书文章的url规则 使用selenium请求页面 使用xpath获取需要的数据 异步存储数据到M
阅读全文
摘要:回调函数callback不执行 大概率是被过滤了 两种方法: 在 allowed_domains 中加入目标url 在 scrapy.Request() 函数中将参数 dont_filter=True 设置为 True
阅读全文

浙公网安备 33010602011771号