随笔分类 -  爬虫

摘要:[toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则 如何 阅读全文
posted @ 2020-04-19 21:37 fwzzz 阅读(130) 评论(0) 推荐(0)
摘要:[toc] 昨日回顾 scrapy框架 1.介绍 Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1.1 框架的生命周期 它可以分为 阅读全文
posted @ 2020-03-11 09:33 fwzzz 阅读(352) 评论(0) 推荐(0)
摘要:[toc] 昨日回顾 python 1 可以发送任意请求get,post,delete。。。 requests.get() requests.post() 2 携带头信息 user agent referer cookie(cookie池) requests.get(headers={}) 3 co 阅读全文
posted @ 2020-03-11 09:31 fwzzz 阅读(413) 评论(0) 推荐(0)
摘要:[toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则 如何 阅读全文
posted @ 2020-03-11 09:24 fwzzz 阅读(405) 评论(0) 推荐(0)
摘要:[toc] 昨日回顾 python 1 网页解析(html、xml) 2 把网页信息(字符串),构造成一个soup对象 3 遍历文档树(从上往下 通过 . 的方式)速度快,只能找到最近的一个 4 查找文档 (全局取搜)find find_all 返回的对象可以继续查找(tag对象) 中方式(字符串, 阅读全文
posted @ 2020-03-11 09:23 fwzzz 阅读(429) 评论(0) 推荐(0)
摘要:[toc] 爬虫 爬虫介绍 爬取的都是http/https的数据,移动端的数据,发送请求获取数据,并不是只有python能做爬虫(任何语言都可以做爬虫),python比较便捷,模块多,上手快,爬虫框架scrapy 3.2 而爬虫程序要做的就是: 模拟浏览器发送请求 下载网页代码 只提取有用的数据 存 阅读全文
posted @ 2020-03-11 09:22 fwzzz 阅读(334) 评论(0) 推荐(0)
摘要:第一份的爬虫爬取小说网 没解决的问题: 1. 爬取主页小说时,由于章节主页有最近章节,导致每一本小说的前面都有最新的十几章内容没法去除 2. 写入速度太慢,两本书大约10M,爬取了13分钟. 3. 代码冗余,暂时没有分函数爬取 阅读全文
posted @ 2019-11-21 19:47 fwzzz 阅读(126) 评论(0) 推荐(0)