爬虫相关 - 文章分类 - 杨小天

scrapy-redis

摘要：scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化下载利用scrapy-redis做去重规则阅读全文

posted @ 2018-05-21 18:45 杨小天阅读(172) 评论(0) 推荐(0)

scrapy框架

摘要：简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Service 阅读全文

posted @ 2018-05-10 20:18 杨小天阅读(242) 评论(0) 推荐(0)

高性能爬虫相关(IO多路复用，异步非阻塞)

摘要：说到提高性能，我们可以想到的是利用多进程、多线程以及单线程实现并发，由于爬虫爬取信息时IO操作较多，所以利用单线程实现并发是较好的选择爬虫本质上还是建立socket连接，通过http请求获取数据 IO多路复用和异步非阻塞 IO多路复用：监听多个socket是否发生变化，可以监听到socket是否已阅读全文

posted @ 2018-05-10 15:10 杨小天阅读(230) 评论(0) 推荐(0)

利用爬虫模拟网页微信wechat

摘要：1.登录页面，显示二维码当我们打开网页微信时，会看到一个用于扫码登录的二维码，所以我们要模拟该页面给我们的页面也弄一个二维码通过查看网页代码我们发现，这个二维码的标签为这个src属性的最后一段每次访问都是不同的，我们发现每次访问该页面时，会向后端发送请求获得这个随机字符串这个请求的结果为所阅读全文

posted @ 2018-05-08 17:12 杨小天阅读(358) 评论(0) 推荐(1)

requests模块和BeautifulSoup模块

摘要：requests Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 License 阅读全文

posted @ 2018-05-07 17:08 杨小天阅读(159) 评论(0) 推荐(0)

文章分类 - 爬虫相关