文章分类 -  爬虫相关

scrapy-redis
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 下载 利用scrapy-redis做去重规则 阅读全文
posted @ 2018-05-21 18:45 杨小天 阅读(172) 评论(0) 推荐(0)
scrapy框架
摘要:简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Service 阅读全文
posted @ 2018-05-10 20:18 杨小天 阅读(242) 评论(0) 推荐(0)
高性能爬虫相关(IO多路复用,异步非阻塞)
摘要:说到提高性能,我们可以想到的是利用多进程、多线程以及单线程实现并发,由于爬虫爬取信息时IO操作较多,所以利用单线程实现并发是较好的选择 爬虫本质上还是建立socket连接,通过http请求获取数据 IO多路复用和异步非阻塞 IO多路复用:监听多个socket是否发生变化,可以监听到socket是否已 阅读全文
posted @ 2018-05-10 15:10 杨小天 阅读(230) 评论(0) 推荐(0)
利用爬虫模拟网页微信wechat
摘要:1.登录页面,显示二维码 当我们打开网页微信时,会看到一个用于扫码登录的二维码,所以我们要模拟该页面给我们的页面也弄一个二维码 通过查看网页代码我们发现,这个二维码的标签为 这个src属性的最后一段每次访问都是不同的,我们发现每次访问该页面时,会向后端发送请求获得这个随机字符串 这个请求的结果为 所 阅读全文
posted @ 2018-05-08 17:12 杨小天 阅读(358) 评论(0) 推荐(1)
requests模块和BeautifulSoup模块
摘要:requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License 阅读全文
posted @ 2018-05-07 17:08 杨小天 阅读(159) 评论(0) 推荐(0)