摘要: 以下均为Linux环境测试。 起因: 开发的一个程序,经常会由于内存不足而被kill掉,使用的是os.system函数执行的,返回值总是35072,当时没多想。后来由于一些原因,要模拟OOM 被kill的状态,于是调用 sys.exit(35072) 突然发现,返回值不对。。。 于是有了下面的。 p阅读全文
posted @ 2019-05-19 17:06 Mr.Dolphin 阅读(34) 评论(0) 编辑
摘要: 爬虫是个好东西,一直都是。 只是,“好”的定义却在发生着变化。 (以下纯属个人意见,不喜勿喷) 爬虫的简单定义,就是使用程序自动从网站中获取信息。 获取信息做什么?这就因人而异了。 有人用来做搜索引擎,一般情况下是造福人类。 有人用来做数据分析,有时候是兴趣、有时候是手段。 有人用来做DDOS,一般阅读全文
posted @ 2019-05-19 12:58 Mr.Dolphin 阅读(22) 评论(0) 编辑
摘要: pyppeteer -- python版本的puppeteer,一个强大的chronium headless浏览器API 最近搞天猫用了一波儿,记录一下。 先上文档: https://miyakogi.github.io/pyppeteer/ 举个最简单的例子入门一下: 比如打开百度,然后截图 # 阅读全文
posted @ 2019-03-02 18:23 Mr.Dolphin 阅读(1056) 评论(0) 编辑
摘要: 蚂蚁文库文档下载 功能: 自动转换为PDF格式 代码地址: https://github.com/duanyifei/mayiwenku阅读全文
posted @ 2018-12-19 15:16 Mr.Dolphin 阅读(3250) 评论(1) 编辑
摘要: def parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace'): """Parse a query given as a string argument. Arg阅读全文
posted @ 2018-11-10 22:12 Mr.Dolphin 阅读(51) 评论(0) 编辑
摘要: 记录一下西瓜视频MP4地址的获取步骤 目标: 指定西瓜视频地址,如 https://www.ixigua.com/a6562763969642103303/#mid=6602323830,获取其视频MP4文件的下载地址 以下使用chrome浏览器 开始分析: 首先在浏览器中打开视频页面,打开审查元素阅读全文
posted @ 2018-10-21 19:18 Mr.Dolphin 阅读(320) 评论(0) 编辑
摘要: 身为一个数据采集攻城狮 第一天:轻松的写好代码,开始友好的访问某个网站 第二天:代码不能用了,简单修复一下,继续友好的访问 第四天:代码不能用了,深层修复一下,继续友好的访问 第七天:代码不能用了,加班修复一下,继续更加友好的访问 。。。 第X天:)阅读全文
posted @ 2018-05-06 22:52 Mr.Dolphin 阅读(93) 评论(0) 编辑
摘要: 目标: 搭建一个远程的phantomjs服务器,提供高可用服务,支持并发。 原料: 1、docker环境、docker-compose环境 2、phantomjs镜像: docker.io/wernight/phantomjs 3、haproxy镜像:haproxy:latest docker-co阅读全文
posted @ 2018-04-13 23:39 Mr.Dolphin 阅读(351) 评论(0) 编辑
摘要: 具体使用方法见这里 https://blog.csdn.net/lynnyq/article/details/79254290 挺详细的,我就不抄了。 重点是一个坑: 执行 python manager.py apidoc 无反应 并且没有生成api文档 执行 apidoc -o static/do阅读全文
posted @ 2018-04-08 16:52 Mr.Dolphin 阅读(183) 评论(0) 编辑
摘要: 1、使用 navicate 导出 csv 文件用 excel 打开乱码 由于excel默认编码是gbk,而navicate导出数据默认编码是utf-8,因此。。。 解决办法: 2、linux环境下安装python MySQLdb模块 需要先安装依赖环境 yum install mysql-devel阅读全文
posted @ 2018-02-10 10:41 Mr.Dolphin 阅读(88) 评论(0) 编辑