12 2020 档案

摘要:用Notepad++创建一个文本文件text.txt,其默认编码格式为ANSI(乍看之下,还以为是ASCII呢),输入汉字居然不是乱码: 保存为test.txt,发送给你美国的同事Bob。他也用Notepad++,不幸的是,却发现你的文件内容是这样的: 也许你会认为:你用的是中文系统,能正常显示中文 阅读全文
posted @ 2020-12-28 18:29 一颗桃子t 阅读(624) 评论(0) 推荐(0)
摘要:pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的。 一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。 网上有很多 pdfminer3k 的代码示例,看过以后,只想吐槽一下,太复杂了,有违 python 阅读全文
posted @ 2020-12-10 17:02 一颗桃子t 阅读(1701) 评论(0) 推荐(0)
摘要:读取: 一、CSV格式: csv是Comma-Separated Values的缩写,是用文本文件形式储存的表格数据。 1.csv模块&reader方法读取: import csvwith open('enrollments.csv', 'rb') as f: reader = csv.reader 阅读全文
posted @ 2020-12-10 17:00 一颗桃子t 阅读(988) 评论(0) 推荐(0)
摘要:python是一门很强大的语言,因为有着丰富的第三方库,所以可以说Python是无所不能的。 很多人都知道,Python可以操作Excel,PDF·还有PPT,这篇文章就围绕Python提取PPT中的文字来写,包括提取PPT中的艺术字,图片中的文字。 因为实现环境是linux,所以无法用win32c 阅读全文
posted @ 2020-12-10 16:34 一颗桃子t 阅读(1309) 评论(0) 推荐(0)
摘要:python是一门很强大的语言,因为有着丰富的第三方库,所以可以说Python是无所不能的。 很多人都知道,Python可以操作Excel,PDF·还有PPT,这篇文章就围绕Python提取PPT中的文字来写,包括提取PPT中的艺术字,图片中的文字。 因为实现环境是linux,所以无法用win32c 阅读全文
posted @ 2020-12-08 16:43 一颗桃子t 阅读(1385) 评论(0) 推荐(0)
摘要:pdfplumber安装 安装直接采用pip即可。命令行中输入 pip install pdfplumber 如果要进行可视化的调试,则需要安装ImageMagick。 Pdfplumber ImageMagick GhostScript 简单使用 最基本的用法如下,读取pdf中的某一页。 impo 阅读全文
posted @ 2020-12-08 16:32 一颗桃子t 阅读(4445) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/zhouz92/article/details/107179616 留作自用 阅读全文
posted @ 2020-12-03 14:43 一颗桃子t 阅读(532) 评论(0) 推荐(0)