丹枫无迹 - 博客园

2018年11月12日

摘要：返回当前工作目录 os.getcwd() 返回 path 的绝对路径 os.path.abspath(path) os.path.abspath('.') 相当于 os.getcwd() 分割目录和文件名返回一个 tuple(目录, 文件名)，以最后一个斜杠作为分割 os.path.split(p 阅读全文

posted @ 2018-11-12 17:40 丹枫无迹阅读(1295) 评论(0) 推荐(0)

2018年11月5日

Python：黑板课爬虫闯关第五关

摘要：第五关是在第三关的基础上加了验证码。验证码识别我们可以通过 tesserocr 来识别，tesserocr 的使用在我的前面两篇博客中有介绍。在这里，tesserocr 的识别率不是很高，大概只有10%到15%。阅读全文

posted @ 2018-11-05 09:44 丹枫无迹阅读(613) 评论(0) 推荐(0)

2018年11月2日

Python：tesserocr 在 windows 下的安装及简单使用

摘要： tesserocr 是 python 的一个 OCR 库，windows 下安装 tesserocr 直接用 pip 安装是不可以的，会报错，只能用 .whl 的方式安装。安装 .whl 时，可能遇到 failed to create process 报错，pip 版本等级过低，中文路径无法识别等问题，给出了解决方案。阅读全文

posted @ 2018-11-02 09:25 丹枫无迹阅读(5158) 评论(0) 推荐(0)

2018年10月30日

【Tesseract】windows 下的安装及简单应用

摘要： Tesseract 是一个开源的 OCR 引擎，可以识别多种格式的图像文件并将其转换成文本，最初由 HP 公司开发，后来由 Google 维护。下载地址：https://digi.bib.uni-mannheim.de/tesseract/ 其中文件名中带有 dev 的为开发版本，不带 dev 的为阅读全文

posted @ 2018-10-30 13:47 丹枫无迹阅读(9501) 评论(0) 推荐(0)

2018年10月29日

【Python 库】fake-useragent 伪装请求头

摘要：写爬虫的时候，在进行 request 请求的时候，多数情况下需要添加请求头，否则就不能正常请求。添加请求头最常用的做法是修改 User-Agent 来伪装浏览器。以前在写请求头的时候，都是通过 copy 来解决的，昨天看到了一个库 fake-useragent，以后再也不用烦恼了。官网地址：h 阅读全文

posted @ 2018-10-29 11:25 丹枫无迹阅读(3085) 评论(0) 推荐(0)

Python：黑板课爬虫闯关第四关

摘要：第四关需要用到多线程，需要注意的是，黑板课服务器15秒内最多返回两个请求，否则返回404，所以，开20个线程和开2个线程是一样的。阅读全文

posted @ 2018-10-29 09:54 丹枫无迹阅读(614) 评论(0) 推荐(1)

2018年10月23日

【Python 库】用 peewee 框架连接 SQL Server

摘要： peewee-mssql 目前版本较老，与 peewee 最新的 3.x 版本不兼容，需要将 peewee 降到2.10.2，另需要安装 pymssql 作为驱动。阅读全文

posted @ 2018-10-23 09:30 丹枫无迹阅读(2095) 评论(0) 推荐(0)

2018年10月9日

【Python】说说字典和散列表，散列冲突的解决原理

摘要：散列表 Python 用散列表来实现 dict。散列表其实是一个稀疏数组（总是有空白元素的数组称为稀疏数组）。在一般书中，散列表里的单元通常叫做表元（bucket）。在 dict 的散列表当中，每个键值对都占用一个表元，每个表元都有两个部分，一个是对键的引用，一个是对值的引用。因为每个表元的大小一致阅读全文

posted @ 2018-10-09 10:36 丹枫无迹阅读(2701) 评论(2) 推荐(1)

2018年10月5日

【Python】序列的增量赋值

摘要：增量赋值运算符有 += 和 *=。+= 背后的特殊方法是 __iadd__，如果一个类没有实现 __iadd__ 方法，Python 会退一步调用 __add__ 方法。这两个方法的区别在于，__iadd__ 为就地改动，不会改变原值的内存地址，而 __add__ 方法会得到一个新对象。阅读全文

posted @ 2018-10-05 11:32 丹枫无迹阅读(1175) 评论(0) 推荐(0)

2018年9月15日

Python：黑板课爬虫闯关第三关

摘要：黑板课爬虫闯关第三关，每次登录之前，先要请求网址，获取服务器发的 cookie 中的 csrftoken 作为下次登录时的 csrfmiddlewaretoken 参数的值和用户名密码一起传给服务器。阅读全文

posted @ 2018-09-15 15:21 丹枫无迹阅读(915) 评论(0) 推荐(0)

Python：黑板课爬虫闯关第二关

摘要：第二关依然是非常的简单地址：http://www.heibanke.com/lesson/crawler_ex01/ 随便输入昵称呢密码，点击提交，显示如下：阅读全文

posted @ 2018-09-15 14:46 丹枫无迹阅读(497) 评论(0) 推荐(0)

Python：黑板课爬虫闯关第一关

摘要：黑板课爬虫闯关，第一关非常的简单，get 请求网址，在响应的 html 中用正则获取需要在网址后面输入的数字，生成新的 url，继续请求，直到通关。阅读全文

posted @ 2018-09-15 14:34 丹枫无迹阅读(779) 评论(0) 推荐(0)

【Python 库】正则表达式 re 模块

摘要：正则大同小异，python 中的正则跟其他语言相比略有差异： 1、替换字符串时，替换的字符串可以是一个函数； 2、split 函数可以指定分割次数，这会导致有个坑； 3、前项界定的表达式必须定长，否则报 look-behind requires fixed-width pattern 错误。阅读全文

posted @ 2018-09-15 09:18 丹枫无迹阅读(873) 评论(0) 推荐(0)

2018年9月10日

【pygame】Python 制作 XP 经典扫雷游戏（附源码）

摘要：基于python 3.6 和 pygame 1.9.2 的扫雷游戏，高仿 XP 上的扫雷。阅读全文

posted @ 2018-09-10 01:55 丹枫无迹阅读(51815) 评论(0) 推荐(2)

2018年9月5日

【pygame】Python 版贪吃蛇

摘要：基于 pygame 的贪吃蛇游戏。附源码，可运行。阅读全文

posted @ 2018-09-05 09:59 丹枫无迹阅读(29841) 评论(0) 推荐(4)

2018年9月1日

【pygame】Python 游戏入门，写个测试打字速度小游戏

摘要：指出了《Python游戏编程入门》[美] Jonathan S·Harbour 著一书中第四章测试打字速度程序原书代码的错误。阅读全文