随笔列表第2页 - 向往前方

2018年11月16日

摘要：参考地址：https://github.com/jsvine/pdfplumber 简单的pdf转换文本： import pdfplumber with pdfplumber.open(path) as pdf: for page in pdf.pages: content = page.extra 阅读全文

posted @ 2018-11-16 15:22 向往前方阅读(6255) 评论(0) 推荐(0) 编辑

2018年11月15日

postgresql数据库去重方法

摘要：数据库去重有很多方法，下面列出目前理解与使用的方法第一种通过group by分组，然后将分组后的数据写入临时表然后再写入另外的表,对于没有出现再group by后面的field可以用函数max,min提取，效率较高--适合情况：这种情况适合重复率非常高的情况，一般来说重复率超过5成则可以考虑用这阅读全文

posted @ 2018-11-15 18:57 向往前方阅读(11933) 评论(0) 推荐(0) 编辑

2018年11月14日

pycharm failed to create JVM

摘要：启动的时候，出现这个error；解决办法：如果电脑安装的jdk是64位，找到pycharm的安装目录下的bin目录下的pycharm64.exe.vmoptions文件修改以下值，如果是32位，则修改pycharm.exe.vmoptions中的值（注意：如果C盘下.PyCharmCE201 阅读全文

posted @ 2018-11-14 12:18 向往前方阅读(15979) 评论(2) 推荐(0) 编辑

2018年11月8日

sql语句的使用经验 postgresql

摘要：查找指定字段为空或不为空查询数据库中指定字段为空的行数据： select * from tablename where columnName = ''; 字符串类型可以用 '' ,也可以用Null select * from tablename where is Null(columnName); 阅读全文

posted @ 2018-11-08 18:07 向往前方阅读(1378) 评论(0) 推荐(0) 编辑

2018年11月5日

postgresql编码问题

摘要：基本使用参考 https://www.yiibai.com/postgresql/postgresql-insert.html 关于编码问题：这是一个很复杂，但弄懂之后还是很迷的问题。 postgresql数据库编码问题主要体现在三个方面：一、数据库服务器字符集编码数据库服务器支持某种编码，是阅读全文

posted @ 2018-11-05 21:46 向往前方阅读(6719) 评论(0) 推荐(1) 编辑

2018年10月30日

Tesseract-ocr 安装与使用

摘要： Tesseract（识别引擎），一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不阅读全文

posted @ 2018-10-30 17:38 向往前方阅读(15391) 评论(0) 推荐(0) 编辑

python doc格式转文本格式

摘要：首先python是不能直接读写doc格式的文件的，这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件，且一路畅通无阻。这样的话，可以先将doc格式转化为docx格式，但是不能直接修改文件名的后缀（这样文件会被损坏，即使没被损坏可能也阅读全文

posted @ 2018-10-30 13:49 向往前方阅读(3427) 评论(0) 推荐(0) 编辑

2018年10月25日

报警提示模块--Server酱

摘要：功能：从服务器推报警和日志到手机上的工具使用：发送消息非常简单，只需要向以下URL发一个GET或者POST请求：接受两个参数： text：消息标题，最长为256，必填。 desp：消息内容，最长64Kb，可空，支持MarkDown。最简单的消息发送方式是通过浏览器，在地址栏输入以下URL，回阅读全文

posted @ 2018-10-25 16:10 向往前方阅读(1252) 评论(1) 推荐(0) 编辑

少年依旧

公告