随笔分类 -  python Spider

摘要:代理检测 目标:检测代理响应速度、稳定性、匿名度、是否在黑(白)名单 1、响应速度可以通过超时请求来过滤 2、匿名度 url = 'http://httpbin.org/get' 如何headers中有"Ngx-Client-Ip": "xxx.xxx.xxx.xxx"或者origin字段中有包含本 阅读全文
posted @ 2020-04-28 14:15 向往前方 阅读(483) 评论(0) 推荐(0)
摘要:参考地址:https://github.com/jsvine/pdfplumber 简单的pdf转换文本: import pdfplumber with pdfplumber.open(path) as pdf: for page in pdf.pages: content = page.extra 阅读全文
posted @ 2018-11-16 15:22 向往前方 阅读(6400) 评论(0) 推荐(0)
摘要:Tesseract(识别引擎),一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不 阅读全文
posted @ 2018-10-30 17:38 向往前方 阅读(15632) 评论(0) 推荐(0)
摘要:首先python是不能直接读写doc格式的文件的,这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻。 这样的话,可以先将doc格式转化为docx格式,但是不能直接修改文件名的后缀(这样文件会被损坏,即使没被损坏可能也 阅读全文
posted @ 2018-10-30 13:49 向往前方 阅读(3537) 评论(0) 推荐(0)