摘要: 记录一下在使用pyppeteer过程中慢慢发现的一些稍微高级一点的用法。 一、拦截器简单用法 拦截器作用于单个Page,即浏览器中的一个标签页。每初始化一个Page都要添加一下拦截器。拦截器实际上是 通过给各种事件添加回调函数来实现的。 事件列表可参见:pyppeteer.page.Page.Eve 阅读全文
posted @ 2019-11-17 00:10 Mr..D 阅读(13227) 评论(3) 推荐(1) 编辑
摘要: 我只是想看一下大家都是啥时候发博客而已!! 第一步: 把 https://www.cnblogs.com/ 的文章列表先拿下来,只有200页,时间范围是一个月多几天,不知道是不是全部的,就这样吧 代码很简单:https://github.com/dytttf/little_spider/blob/m 阅读全文
posted @ 2019-11-11 23:04 Mr..D 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 本文主要记录一下最近所做的关于Google批量搜索的实现方式。 搜索目的: 获取关键词在某个域名下对应的Google搜索结果数 搜索方式: 关键词+inurl 例如:"爬虫" inurl:cnblogs.com 第一种方式: 使用爬虫手段,构造Google搜索url进行采集。 示例:https:// 阅读全文
posted @ 2019-11-09 22:04 Mr..D 阅读(3379) 评论(0) 推荐(1) 编辑
摘要: 背景: 大概2019年9月份,天猫全面升级了HTTP/2的支持,并且加强了HTTP/1的访问限制,也可能很早前就这么做了, 但之前一直没限制HTTP/1的访问。之所以发现这个问题,是因为写的爬虫突然失败率奇高,而且是间断性被封禁。当 被封禁的时候,使用Chrome浏览器报错为:ERR_SPDY_PR 阅读全文
posted @ 2019-10-22 23:58 Mr..D 阅读(5473) 评论(2) 推荐(0) 编辑
摘要: 以下均为Linux环境测试。 起因: 开发的一个程序,经常会由于内存不足而被kill掉,使用的是os.system函数执行的,返回值总是35072,当时没多想。后来由于一些原因,要模拟OOM 被kill的状态,于是调用 sys.exit(35072) 突然发现,返回值不对。。。 于是有了下面的。 p 阅读全文
posted @ 2019-05-19 17:06 Mr..D 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 爬虫是个好东西,一直都是。 只是,“好”的定义却在发生着变化。 (以下纯属个人意见,不喜勿喷) 爬虫的简单定义,就是使用程序自动从网站中获取信息。 获取信息做什么?这就因人而异了。 有人用来做搜索引擎,一般情况下是造福人类。 有人用来做数据分析,有时候是兴趣、有时候是手段。 有人用来做DDOS,一般 阅读全文
posted @ 2019-05-19 12:58 Mr..D 阅读(290) 评论(0) 推荐(0) 编辑
摘要: pyppeteer -- python版本的puppeteer,一个强大的chronium headless浏览器API 最近搞天猫用了一波儿,记录一下。 先上文档: https://miyakogi.github.io/pyppeteer/ 举个最简单的例子入门一下: 比如打开百度,然后截图 # 阅读全文
posted @ 2019-03-02 18:23 Mr..D 阅读(5828) 评论(0) 推荐(0) 编辑
摘要: 蚂蚁文库文档下载 功能: 自动转换为PDF格式 代码地址: https://github.com/duanyifei/mayiwenku 阅读全文
posted @ 2018-12-19 15:16 Mr..D 阅读(11788) 评论(1) 推荐(0) 编辑
摘要: def parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'): """Parse a query given as a string argument. Arg 阅读全文
posted @ 2018-11-10 22:12 Mr..D 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 记录一下西瓜视频MP4地址的获取步骤 目标: 指定西瓜视频地址,如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830,获取其视频MP4文件的下载地址 以下使用chrome浏览器 开始分析: 首先在浏览器中打开视频页面,打开审查元素 阅读全文
posted @ 2018-10-21 19:18 Mr..D 阅读(4429) 评论(1) 推荐(1) 编辑