爬虫 - 随笔分类 - fwzzz

20200228 scrapy高级使用及分布式

摘要：[toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则如何阅读全文

posted @ 2020-04-19 21:37 fwzzz 阅读(130) 评论(0) 推荐(0)

20200227 scrapy框架

摘要：[toc] 昨日回顾 scrapy框架 1.介绍 Scrapy 是一个基于 Twisted 的异步处理框架，是纯 Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1.1 框架的生命周期它可以分为阅读全文

posted @ 2020-03-11 09:33 fwzzz 阅读(352) 评论(0) 推荐(0)

20200225 爬虫-bs4使用及简单代理破解验证码

摘要：[toc] 昨日回顾 python 1 可以发送任意请求get，post，delete。。。 requests.get() requests.post() 2 携带头信息 user agent referer cookie(cookie池) requests.get(headers={}) 3 co 阅读全文

posted @ 2020-03-11 09:31 fwzzz 阅读(413) 评论(0) 推荐(0)

20200228 scrapy高级使用及分布式

摘要：[toc] 昨日回顾 scrapy高级使用及分布式 1.爬虫件参数 2.提升scrapy爬取的效率 3.scrapy的中间件(下载中间件) process_exception process_request process_response 4.scrapy中使用selenium 5.去重规则如何阅读全文

posted @ 2020-03-11 09:24 fwzzz 阅读(405) 评论(0) 推荐(0)

20200226 请求库selenium

摘要：[toc] 昨日回顾 python 1 网页解析（html、xml） 2 把网页信息（字符串），构造成一个soup对象 3 遍历文档树（从上往下通过 . 的方式）速度快，只能找到最近的一个 4 查找文档（全局取搜）find find_all 返回的对象可以继续查找（tag对象）中方式（字符串，阅读全文

posted @ 2020-03-11 09:23 fwzzz 阅读(429) 评论(0) 推荐(0)

20200224 爬虫-requests模块

摘要：[toc] 爬虫爬虫介绍爬取的都是http/https的数据，移动端的数据，发送请求获取数据，并不是只有python能做爬虫（任何语言都可以做爬虫），python比较便捷，模块多，上手快，爬虫框架scrapy 3.2 而爬虫程序要做的就是：模拟浏览器发送请求下载网页代码只提取有用的数据存阅读全文

posted @ 2020-03-11 09:22 fwzzz 阅读(334) 评论(0) 推荐(0)

1121 爬虫简单面条版

摘要：第一份的爬虫爬取小说网没解决的问题: 1. 爬取主页小说时,由于章节主页有最近章节,导致每一本小说的前面都有最新的十几章内容没法去除 2. 写入速度太慢,两本书大约10M,爬取了13分钟. 3. 代码冗余,暂时没有分函数爬取阅读全文

posted @ 2019-11-21 19:47 fwzzz 阅读(126) 评论(0) 推荐(0)

fwzzz

随笔分类 - 爬虫

公告