摘要: 参考地址:https://github.com/jsvine/pdfplumber 简单的pdf转换文本: import pdfplumber with pdfplumber.open(path) as pdf: for page in pdf.pages: content = page.extra 阅读全文
posted @ 2018-11-16 15:22 向往前方 阅读(6255) 评论(0) 推荐(0) 编辑
摘要: 数据库去重有很多方法,下面列出目前理解与使用的方法 第一种 通过group by分组,然后将分组后的数据写入临时表然后再写入另外的表,对于没有出现再group by后面的field可以用函数max,min提取,效率较高--适合情况:这种情况适合重复率非常高的情况,一般来说重复率超过5成则可以考虑用这 阅读全文
posted @ 2018-11-15 18:57 向往前方 阅读(11933) 评论(0) 推荐(0) 编辑
摘要: 启动的时候,出现这个error; 解决办法: 如果电脑安装的jdk是64位,找到pycharm的安装目录下的bin目录下的pycharm64.exe.vmoptions文件修改以下值, 如果是32位,则修改pycharm.exe.vmoptions中的值 (注意:如果C盘下.PyCharmCE201 阅读全文
posted @ 2018-11-14 12:18 向往前方 阅读(15979) 评论(2) 推荐(0) 编辑
摘要: 查找指定字段为空或不为空 查询数据库中指定字段为空的行数据: select * from tablename where columnName = ''; 字符串类型可以用 '' ,也可以用Null select * from tablename where is Null(columnName); 阅读全文
posted @ 2018-11-08 18:07 向往前方 阅读(1378) 评论(0) 推荐(0) 编辑
摘要: 基本使用参考 https://www.yiibai.com/postgresql/postgresql-insert.html 关于编码问题: 这是一个很复杂,但弄懂之后还是很迷的问题。 postgresql数据库编码问题主要体现在三个方面: 一、数据库服务器字符集编码 数据库服务器支持某种编码,是 阅读全文
posted @ 2018-11-05 21:46 向往前方 阅读(6719) 评论(0) 推荐(1) 编辑
摘要: Tesseract(识别引擎),一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不 阅读全文
posted @ 2018-10-30 17:38 向往前方 阅读(15391) 评论(0) 推荐(0) 编辑
摘要: 首先python是不能直接读写doc格式的文件的,这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻。 这样的话,可以先将doc格式转化为docx格式,但是不能直接修改文件名的后缀(这样文件会被损坏,即使没被损坏可能也 阅读全文
posted @ 2018-10-30 13:49 向往前方 阅读(3427) 评论(0) 推荐(0) 编辑
摘要: 功能:从服务器推报警和日志到手机上的工具 使用: 发送消息非常简单,只需要向以下URL发一个GET或者POST请求: 接受两个参数: text:消息标题,最长为256,必填。 desp:消息内容,最长64Kb,可空,支持MarkDown。 最简单的消息发送方式是通过浏览器,在地址栏输入以下URL,回 阅读全文
posted @ 2018-10-25 16:10 向往前方 阅读(1252) 评论(1) 推荐(0) 编辑