爬虫 - 随笔分类 - waller

爬虫 - 分布式爬虫

摘要：介绍原来scrapy的Scheduler维护的是本机的任务队列（存放Request对象及其回调函数等信息）+本机的去重队列（存放访问过的url地址）所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，然后重写Scrapy的Scheduler，让新的Scheduler 阅读全文

posted @ 2019-11-29 17:05 waller 阅读(159) 评论(0) 推荐(0)

爬虫 - 请求库之selenium

摘要：介绍官方文档 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selen 阅读全文

posted @ 2019-11-26 18:40 waller 阅读(223) 评论(0) 推荐(0)

爬虫 - 解析库之Beautiful Soup

摘要：了解Beautiful Soup 中文文档： Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式安装 beautifulsoup4 >: pip install beautifulsoup4 解阅读全文

posted @ 2019-11-26 16:13 waller 阅读(179) 评论(0) 推荐(0)

爬虫 - 请求库之requests

摘要：介绍使用requests可以模拟浏览器的请求，比起python内置的urllib模块，requests模块的api更加便捷（本质就是封装了urllib3）注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求安装 > 阅读全文

posted @ 2019-11-25 16:45 waller 阅读(278) 评论(0) 推荐(0)

爬虫 - 认识爬虫 | 爬虫流程 | 请求与响应 | 爬虫分类 | 攻防

摘要：什么是上网？爬虫要做的是什么？我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。用户获取网络数据的方式是：浏览器提交请求->下载网页代码->解析/渲染成页面。而爬虫程序要做的就是：模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库阅读全文

posted @ 2019-11-25 15:18 waller 阅读(320) 评论(0) 推荐(0)

waller

随笔分类 - 爬虫

公告