2019 年 10月 29 日随笔档案 - 蔡文君

2019年10月29日

摘要：引入提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。今日概要 CrawlSpide 阅读全文

posted @ 2019-10-29 21:47 蔡文君阅读(305) 评论(0) 推荐(1)

在爬虫中使用单线程异步协程，包含单任务和多任务，以及数据解析使用回调函数

摘要： aiohttp简介 aiohttp可以实现单线程并发IO操作，用他来代替非异步模块request来发送请求，请求中的ua,headers,和参数都可以添加，添加方法如下：环境安装 aiohttp使用 1.发起请求 2.添加请求参数的方法： 3.UA伪装的添加方法： 4.自定义cookies的方法：阅读全文

posted @ 2019-10-29 21:36 蔡文君阅读(320) 评论(0) 推荐(0)

使用线程池来进行发送爬取请求和存储数据

摘要：基于multiprocessing.dummy线程池爬取梨视频的视频信息总结：对应上例中的所面临的可能同时出现的上千甚至上万次的客户端请求，“线程池”或“连接池”或许可以缓解部分压力，但是不能解决所有问题。总之，多线程模型可以方便高效的解决小规模的服务请求，但面对大规模的服务请求，多线程模型也会遇阅读全文

posted @ 2019-10-29 21:21 蔡文君阅读(447) 评论(0) 推荐(0)

在linux和windows中使用selenium

摘要：在linux和windows中使用selenium 一. selenium（浏览的人你们多大呀？是AI?） selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比阅读全文

posted @ 2019-10-29 20:58 蔡文君阅读(1944) 评论(5) 推荐(0)

蔡文君

公告