随笔分类 -  爬虫

摘要:一些常见的装态码 100 - 继续 请求者应当继续发送请求 200 - 成功 服务器成功返回响应数据 301 - 永久移动 请求的网页已永久移到新位置,服务器返回的响应会自动将请求者转到新位置 302 - 临时移动 服务器目前从不同位置的页面响应请求,但使用者继续使用原有的位置来进行以后的请求 30 阅读全文
posted @ 2019-03-11 10:42 神秘嘉宾7m 阅读(393) 评论(0) 推荐(0)
摘要:正则表达式 一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/ http://tool.oschina.net/regex 字符: 量词: . ^ $ * + ? { } 李杰李莲李二 李杰和李莲英李二棍 注意:前面 阅读全文
posted @ 2019-03-09 22:06 神秘嘉宾7m 阅读(128) 评论(0) 推荐(0)
摘要:——http get和post的区别? 1、get用于获取数据,post用于提交数据 2、get提交参数追加在url后面,post参数可以通过http body提交 3、get的url会有长度上的限制,则post的数据则可以非常大 4、get提交信息明文显示在url上,不够安全,post提交的信息不 阅读全文
posted @ 2019-03-09 18:44 神秘嘉宾7m 阅读(142) 评论(0) 推荐(0)
摘要:引言 对于简单验证码及一些图像的识别,我们需要使用pytesseract及相应的Tesseract引擎,它是开源的OCR引擎。帮助我们做一些简单的图像识别 当然为了更好将图片识别,对一些像素比较低的图片,我们会做一定的灰度处理,方便图像识别,参考https://www.jb51.net/articl 阅读全文
posted @ 2019-03-09 18:17 神秘嘉宾7m 阅读(1782) 评论(0) 推荐(0)