摘要:基础 启用隐身模式 非隐身模式启用插件 正文 如果是非隐身模式启用插件的话,上面的代码就可以了。但很蛋疼的是,有个场景必须得在隐身模式下运行,还需要插件。如果是人为操作的话,启用步骤如下: 1. 打开插件管理页面 chrome://extensions/ 2. 找到需要启动的插件,点击详细信息,进入 阅读全文
posted @ 2020-01-21 21:20 Mr.Dolphin 阅读 (3) 评论 (0) 编辑
摘要:背景 经常做爬虫的人,应该对\x00、\x01这样的字符不陌生,网页源码里面 不经常 出现。不过一般都不深究这到底是啥。一开始我也没研究,发现之后就拿正则替换掉,简单粗暴的处理。之所以要去掉,是因为使用Python的lxml库处理的时候会抛异常。再后来,由于需要做一个通用一些的采集器,没办法再无视这 阅读全文
posted @ 2020-01-03 21:25 Mr.Dolphin 阅读 (15) 评论 (0) 编辑
摘要:记录一下在使用pyppeteer过程中慢慢发现的一些稍微高级一点的用法。 一、拦截器简单用法 拦截器作用于单个Page,即浏览器中的一个标签页。每初始化一个Page都要添加一下拦截器。拦截器实际上是 通过给各种事件添加回调函数来实现的。 事件列表可参见:pyppeteer.page.Page.Eve 阅读全文
posted @ 2019-11-17 00:10 Mr.Dolphin 阅读 (375) 评论 (0) 编辑
摘要:我只是想看一下大家都是啥时候发博客而已!! 第一步: 把 https://www.cnblogs.com/ 的文章列表先拿下来,只有200页,时间范围是一个月多几天,不知道是不是全部的,就这样吧 代码很简单:https://github.com/dytttf/little_spider/blob/m 阅读全文
posted @ 2019-11-11 23:04 Mr.Dolphin 阅读 (30) 评论 (0) 编辑
摘要:本文主要记录一下最近所做的关于Google批量搜索的实现方式。 搜索目的: 获取关键词在某个域名下对应的Google搜索结果数 搜索方式: 关键词+inurl 例如:"爬虫" inurl:cnblogs.com 第一种方式: 使用爬虫手段,构造Google搜索url进行采集。 示例:https:// 阅读全文
posted @ 2019-11-09 22:04 Mr.Dolphin 阅读 (94) 评论 (0) 编辑
摘要:背景: 大概2019年9月份,天猫全面升级了HTTP/2的支持,并且加强了HTTP/1的访问限制,也可能很早前就这么做了, 但之前一直没限制HTTP/1的访问。之所以发现这个问题,是因为写的爬虫突然失败率奇高,而且是间断性被封禁。当 被封禁的时候,使用Chrome浏览器报错为:ERR_SPDY_PR 阅读全文
posted @ 2019-10-22 23:58 Mr.Dolphin 阅读 (200) 评论 (0) 编辑
摘要:以下均为Linux环境测试。 起因: 开发的一个程序,经常会由于内存不足而被kill掉,使用的是os.system函数执行的,返回值总是35072,当时没多想。后来由于一些原因,要模拟OOM 被kill的状态,于是调用 sys.exit(35072) 突然发现,返回值不对。。。 于是有了下面的。 p 阅读全文
posted @ 2019-05-19 17:06 Mr.Dolphin 阅读 (131) 评论 (0) 编辑
摘要:爬虫是个好东西,一直都是。 只是,“好”的定义却在发生着变化。 (以下纯属个人意见,不喜勿喷) 爬虫的简单定义,就是使用程序自动从网站中获取信息。 获取信息做什么?这就因人而异了。 有人用来做搜索引擎,一般情况下是造福人类。 有人用来做数据分析,有时候是兴趣、有时候是手段。 有人用来做DDOS,一般 阅读全文
posted @ 2019-05-19 12:58 Mr.Dolphin 阅读 (80) 评论 (0) 编辑
摘要:pyppeteer -- python版本的puppeteer,一个强大的chronium headless浏览器API 最近搞天猫用了一波儿,记录一下。 先上文档: https://miyakogi.github.io/pyppeteer/ 举个最简单的例子入门一下: 比如打开百度,然后截图 # 阅读全文
posted @ 2019-03-02 18:23 Mr.Dolphin 阅读 (3665) 评论 (0) 编辑
摘要:蚂蚁文库文档下载 功能: 自动转换为PDF格式 代码地址: https://github.com/duanyifei/mayiwenku 阅读全文
posted @ 2018-12-19 15:16 Mr.Dolphin 阅读 (6391) 评论 (1) 编辑