08 2018 档案
摘要:例如一个IP代理池,这是个字符串,有多行 120.236.137.65:8060 193.112.208.216:8118 121.8.98.198:80 121.8.98.197:80 121.8.98.196:80 120.236.168.19:8060 123.207.6.117:80
阅读全文
摘要:前提:看Scrapy架构图 不管什么Middlewares,都写在middlewares.py里面。 然后在settings.py里的DOWNLOADER_MIDDLEWARES或者SPIDER_MIDDLEWARES里面再设置中间件,这样中间件才细分为下载器中间件还是爬取中间件。
阅读全文
摘要:基本思路 Based on Selenium(模拟浏览器动作) 1. 模拟点击验证按钮 2. 识别滑动缺口的位置 3. 模拟拖动模块。 对于3 反爬虫策略:机器学习轨迹识别。只有模拟人的移动轨迹才可以,先快后慢
阅读全文
摘要:用OCR来识别 直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。 python 获取图片 curl X GET http://my.cnki.net/elibregister/CheckCode.aspx import tess
阅读全文
摘要:Form里面嵌套了一个Meta类 Django是怎么处理的? 在models.py中 看这个源码得知,用反射获取class Meta,然后用type()去创建新的表单类。type()用了两次,第一次用来创建base form, 第二次用base form来创建带有新增属性的form。 为什么type
阅读全文
摘要:1. 目录结构 一般情况下,Django很系统、统一。Flask项目目录风格不同一,即使用上了蓝图。 2. 数据库迁移 Flask要用第三方extensions,而Django自带,这个很方便。 3. 模块化 Flask是用蓝图。Django可以自动生成 ,并在Django的项目的settings那
阅读全文
摘要:
阅读全文
摘要:1.Python中的lambda函数只允许单个表达式,没有流程控制、迭代、异常处理等。 2.lambda表达式中的变量是运行时绑定的 3.想让某个匿名函数在定义时就捕获到值,可以将那个参数值定义成默认参数
阅读全文
摘要:What is it? Splash is a javascript rendering service. It’s a lightweight web browser with an HTTP API http://splash.readthedocs.io/en/stable/ 用途 爬虫方面可
阅读全文
摘要:动态规划 ≈ 分治法 + memo def memo(func): cache = {} def wrap( args): if args not in cache: cache[args] = func( args) return cache[args] return wrap @memo 注释掉
阅读全文
摘要:
阅读全文
摘要:Why 在deepin linux上安装Java很头疼。。 How 于是有了sdk man! https://sdkman.io/
阅读全文
摘要:例如在读文件里面的文本时,每一行默认后面有\n或者有\r,所以strip用于去除首尾空格或者回车符。
阅读全文

浙公网安备 33010602011771号