会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Mr.D
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
下一页
2019年11月17日
pyppeteer进阶技巧
摘要: 记录一下在使用pyppeteer过程中慢慢发现的一些稍微高级一点的用法。 一、拦截器简单用法 拦截器作用于单个Page,即浏览器中的一个标签页。每初始化一个Page都要添加一下拦截器。拦截器实际上是 通过给各种事件添加回调函数来实现的。 事件列表可参见:pyppeteer.page.Page.Eve
阅读全文
posted @ 2019-11-17 00:10 Mr..D
阅读(13859)
评论(3)
推荐(1)
2019年11月11日
博客园文章发布时间统计
摘要: 我只是想看一下大家都是啥时候发博客而已!! 第一步: 把 https://www.cnblogs.com/ 的文章列表先拿下来,只有200页,时间范围是一个月多几天,不知道是不是全部的,就这样吧 代码很简单:https://github.com/dytttf/little_spider/blob/m
阅读全文
posted @ 2019-11-11 23:04 Mr..D
阅读(448)
评论(0)
推荐(0)
2019年11月9日
google批量搜索实现方式
摘要: 本文主要记录一下最近所做的关于Google批量搜索的实现方式。 搜索目的: 获取关键词在某个域名下对应的Google搜索结果数 搜索方式: 关键词+inurl 例如:"爬虫" inurl:cnblogs.com 第一种方式: 使用爬虫手段,构造Google搜索url进行采集。 示例:https://
阅读全文
posted @ 2019-11-09 22:04 Mr..D
阅读(3768)
评论(0)
推荐(1)
2019年10月22日
HTTP/2和Python的支持现状-2019-10
摘要: 背景: 大概2019年9月份,天猫全面升级了HTTP/2的支持,并且加强了HTTP/1的访问限制,也可能很早前就这么做了, 但之前一直没限制HTTP/1的访问。之所以发现这个问题,是因为写的爬虫突然失败率奇高,而且是间断性被封禁。当 被封禁的时候,使用Chrome浏览器报错为:ERR_SPDY_PR
阅读全文
posted @ 2019-10-22 23:58 Mr..D
阅读(5677)
评论(2)
推荐(0)
2019年5月19日
Linux errno 与 Python
摘要: 以下均为Linux环境测试。 起因: 开发的一个程序,经常会由于内存不足而被kill掉,使用的是os.system函数执行的,返回值总是35072,当时没多想。后来由于一些原因,要模拟OOM 被kill的状态,于是调用 sys.exit(35072) 突然发现,返回值不对。。。 于是有了下面的。 p
阅读全文
posted @ 2019-05-19 17:06 Mr..D
阅读(709)
评论(0)
推荐(0)
爬虫是个好东西
摘要: 爬虫是个好东西,一直都是。 只是,“好”的定义却在发生着变化。 (以下纯属个人意见,不喜勿喷) 爬虫的简单定义,就是使用程序自动从网站中获取信息。 获取信息做什么?这就因人而异了。 有人用来做搜索引擎,一般情况下是造福人类。 有人用来做数据分析,有时候是兴趣、有时候是手段。 有人用来做DDOS,一般
阅读全文
posted @ 2019-05-19 12:58 Mr..D
阅读(298)
评论(0)
推荐(0)
2019年3月2日
pyppeteer使用笔记
摘要: pyppeteer -- python版本的puppeteer,一个强大的chronium headless浏览器API 最近搞天猫用了一波儿,记录一下。 先上文档: https://miyakogi.github.io/pyppeteer/ 举个最简单的例子入门一下: 比如打开百度,然后截图 #
阅读全文
posted @ 2019-03-02 18:23 Mr..D
阅读(5910)
评论(0)
推荐(0)
2018年12月19日
蚂蚁文库下载器
摘要: 蚂蚁文库文档下载 功能: 自动转换为PDF格式 代码地址: https://github.com/duanyifei/mayiwenku
阅读全文
posted @ 2018-12-19 15:16 Mr..D
阅读(12042)
评论(1)
推荐(0)
2018年11月10日
urllib.parse.parse_qsl 的一个小问题
摘要: def parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'): """Parse a query given as a string argument. Arg
阅读全文
posted @ 2018-11-10 22:12 Mr..D
阅读(491)
评论(0)
推荐(0)
2018年10月21日
爬虫技巧-西瓜视频MP4地址获取
摘要: 记录一下西瓜视频MP4地址的获取步骤 目标: 指定西瓜视频地址,如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830,获取其视频MP4文件的下载地址 以下使用chrome浏览器 开始分析: 首先在浏览器中打开视频页面,打开审查元素
阅读全文
posted @ 2018-10-21 19:18 Mr..D
阅读(5215)
评论(1)
推荐(1)
上一页
1
2
3
4
5
下一页
公告