08 2018 档案

摘要:例如一个IP代理池,这是个字符串,有多行 120.236.137.65:8060 193.112.208.216:8118 121.8.98.198:80 121.8.98.197:80 121.8.98.196:80 120.236.168.19:8060 123.207.6.117:80 阅读全文
posted @ 2018-08-29 23:56 Rocin 阅读(5504) 评论(0) 推荐(0)
摘要:前提:看Scrapy架构图 不管什么Middlewares,都写在middlewares.py里面。 然后在settings.py里的DOWNLOADER_MIDDLEWARES或者SPIDER_MIDDLEWARES里面再设置中间件,这样中间件才细分为下载器中间件还是爬取中间件。 阅读全文
posted @ 2018-08-29 10:17 Rocin 阅读(144) 评论(0) 推荐(0)
摘要:基本思路 Based on Selenium(模拟浏览器动作) 1. 模拟点击验证按钮 2. 识别滑动缺口的位置 3. 模拟拖动模块。 对于3 反爬虫策略:机器学习轨迹识别。只有模拟人的移动轨迹才可以,先快后慢 阅读全文
posted @ 2018-08-26 16:00 Rocin 阅读(444) 评论(0) 推荐(0)
摘要:用OCR来识别 直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。 python 获取图片 curl X GET http://my.cnki.net/elibregister/CheckCode.aspx import tess 阅读全文
posted @ 2018-08-26 15:00 Rocin 阅读(278) 评论(0) 推荐(0)
摘要:Form里面嵌套了一个Meta类 Django是怎么处理的? 在models.py中 看这个源码得知,用反射获取class Meta,然后用type()去创建新的表单类。type()用了两次,第一次用来创建base form, 第二次用base form来创建带有新增属性的form。 为什么type 阅读全文
posted @ 2018-08-25 08:55 Rocin 阅读(774) 评论(0) 推荐(0)
摘要:1. 目录结构 一般情况下,Django很系统、统一。Flask项目目录风格不同一,即使用上了蓝图。 2. 数据库迁移 Flask要用第三方extensions,而Django自带,这个很方便。 3. 模块化 Flask是用蓝图。Django可以自动生成 ,并在Django的项目的settings那 阅读全文
posted @ 2018-08-23 11:48 Rocin 阅读(4206) 评论(0) 推荐(0)
摘要:![](https://images2018.cnblogs.com/blog/1310818/201808/1310818-20180816103749515-1089449130.png) 阅读全文
posted @ 2018-08-16 10:14 Rocin 阅读(302) 评论(0) 推荐(0)
摘要:1.Python中的lambda函数只允许单个表达式,没有流程控制、迭代、异常处理等。 2.lambda表达式中的变量是运行时绑定的 3.想让某个匿名函数在定义时就捕获到值,可以将那个参数值定义成默认参数 阅读全文
posted @ 2018-08-15 08:00 Rocin 阅读(109) 评论(0) 推荐(0)
摘要:What is it? Splash is a javascript rendering service. It’s a lightweight web browser with an HTTP API http://splash.readthedocs.io/en/stable/ 用途 爬虫方面可 阅读全文
posted @ 2018-08-14 19:53 Rocin 阅读(382) 评论(0) 推荐(0)
摘要:动态规划 ≈ 分治法 + memo def memo(func): cache = {} def wrap( args): if args not in cache: cache[args] = func( args) return cache[args] return wrap @memo 注释掉 阅读全文
posted @ 2018-08-14 11:16 Rocin 阅读(171) 评论(0) 推荐(0)
摘要:![](https://images2018.cnblogs.com/blog/1310818/201808/1310818-20180806102347205-1996141356.jpg) 阅读全文
posted @ 2018-08-06 10:24 Rocin 阅读(178) 评论(0) 推荐(0)
摘要:Why 在deepin linux上安装Java很头疼。。 How 于是有了sdk man! https://sdkman.io/ 阅读全文
posted @ 2018-08-03 00:40 Rocin 阅读(128) 评论(0) 推荐(0)
摘要:例如在读文件里面的文本时,每一行默认后面有\n或者有\r,所以strip用于去除首尾空格或者回车符。 阅读全文
posted @ 2018-08-02 19:14 Rocin 阅读(5380) 评论(0) 推荐(0)