随笔分类 - python Spider
摘要:代理检测 目标:检测代理响应速度、稳定性、匿名度、是否在黑(白)名单 1、响应速度可以通过超时请求来过滤 2、匿名度 url = 'http://httpbin.org/get' 如何headers中有"Ngx-Client-Ip": "xxx.xxx.xxx.xxx"或者origin字段中有包含本
阅读全文
摘要:参考地址:https://github.com/jsvine/pdfplumber 简单的pdf转换文本: import pdfplumber with pdfplumber.open(path) as pdf: for page in pdf.pages: content = page.extra
阅读全文
摘要:Tesseract(识别引擎),一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不
阅读全文
摘要:首先python是不能直接读写doc格式的文件的,这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻。 这样的话,可以先将doc格式转化为docx格式,但是不能直接修改文件名的后缀(这样文件会被损坏,即使没被损坏可能也
阅读全文

浙公网安备 33010602011771号