摘要: 引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 今日概要 CrawlSpide 阅读全文
posted @ 2019-10-29 21:47 蔡文君 阅读(305) 评论(0) 推荐(1)
摘要: aiohttp简介 aiohttp可以实现单线程并发IO操作,用他来代替非异步模块request来发送请求,请求中的ua,headers,和参数都可以添加,添加方法如下: 环境安装 aiohttp使用 1.发起请求 2.添加请求参数的方法: 3.UA伪装的添加方法: 4.自定义cookies的方法: 阅读全文
posted @ 2019-10-29 21:36 蔡文君 阅读(320) 评论(0) 推荐(0)
摘要: 基于multiprocessing.dummy线程池爬取梨视频的视频信息 总结:对应上例中的所面临的可能同时出现的上千甚至上万次的客户端请求,“线程池”或“连接池”或许可以缓解部分压力,但是不能解决所有问题。总之,多线程模型可以方便高效的解决小规模的服务请求,但面对大规模的服务请求,多线程模型也会遇 阅读全文
posted @ 2019-10-29 21:21 蔡文君 阅读(447) 评论(0) 推荐(0)
摘要: 在linux和windows中使用selenium 一. selenium(浏览的人你们多大呀?是AI?) selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比 阅读全文
posted @ 2019-10-29 20:58 蔡文君 阅读(1944) 评论(5) 推荐(0)