摘要: 返回当前工作目录 os.getcwd() 返回 path 的绝对路径 os.path.abspath(path) os.path.abspath('.') 相当于 os.getcwd() 分割目录和文件名 返回一个 tuple(目录, 文件名),以最后一个斜杠作为分割 os.path.split(p 阅读全文
posted @ 2018-11-12 17:40 丹枫无迹 阅读(1260) 评论(0) 推荐(0) 编辑
摘要: 第五关是在第三关的基础上加了验证码。验证码识别我们可以通过 tesserocr 来识别,tesserocr 的使用在我的前面两篇博客中有介绍。在这里,tesserocr 的识别率不是很高,大概只有10%到15%。 阅读全文
posted @ 2018-11-05 09:44 丹枫无迹 阅读(600) 评论(0) 推荐(0) 编辑
摘要: tesserocr 是 python 的一个 OCR 库,windows 下安装 tesserocr 直接用 pip 安装是不可以的,会报错,只能用 .whl 的方式安装。安装 .whl 时,可能遇到 failed to create process 报错,pip 版本等级过低,中文路径无法识别等问题,给出了解决方案。 阅读全文
posted @ 2018-11-02 09:25 丹枫无迹 阅读(5050) 评论(0) 推荐(0) 编辑
摘要: Tesseract 是一个开源的 OCR 引擎,可以识别多种格式的图像文件并将其转换成文本,最初由 HP 公司开发,后来由 Google 维护。下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 其中文件名中带有 dev 的为开发版本,不带 dev 的为 阅读全文
posted @ 2018-10-30 13:47 丹枫无迹 阅读(9136) 评论(0) 推荐(0) 编辑
摘要: 写爬虫的时候,在进行 request 请求的时候,多数情况下需要添加请求头,否则就不能正常请求。 添加请求头最常用的做法是修改 User-Agent 来伪装浏览器。 以前在写请求头的时候,都是通过 copy 来解决的,昨天看到了一个库 fake-useragent,以后再也不用烦恼了。 官网地址:h 阅读全文
posted @ 2018-10-29 11:25 丹枫无迹 阅读(2951) 评论(0) 推荐(0) 编辑
摘要: 第四关需要用到多线程,需要注意的是,黑板课服务器15秒内最多返回两个请求,否则返回404,所以,开20个线程和开2个线程是一样的。 阅读全文
posted @ 2018-10-29 09:54 丹枫无迹 阅读(585) 评论(0) 推荐(1) 编辑
摘要: peewee-mssql 目前版本较老,与 peewee 最新的 3.x 版本不兼容,需要将 peewee 降到2.10.2,另需要安装 pymssql 作为驱动。 阅读全文
posted @ 2018-10-23 09:30 丹枫无迹 阅读(1941) 评论(0) 推荐(0) 编辑
摘要: 散列表 Python 用散列表来实现 dict。散列表其实是一个稀疏数组(总是有空白元素的数组称为稀疏数组)。在一般书中,散列表里的单元通常叫做表元(bucket)。在 dict 的散列表当中,每个键值对都占用一个表元,每个表元都有两个部分,一个是对键的引用,一个是对值的引用。因为每个表元的大小一致 阅读全文
posted @ 2018-10-09 10:36 丹枫无迹 阅读(2660) 评论(2) 推荐(1) 编辑
摘要: 增量赋值运算符有 += 和 *=。+= 背后的特殊方法是 __iadd__,如果一个类没有实现 __iadd__ 方法,Python 会退一步调用 __add__ 方法。这两个方法的区别在于,__iadd__ 为就地改动,不会改变原值的内存地址,而 __add__ 方法会得到一个新对象。 阅读全文
posted @ 2018-10-05 11:32 丹枫无迹 阅读(1129) 评论(0) 推荐(0) 编辑
摘要: 黑板课爬虫闯关第三关,每次登录之前,先要请求网址,获取服务器发的 cookie 中的 csrftoken 作为下次登录时的 csrfmiddlewaretoken 参数的值和用户名密码一起传给服务器。 阅读全文
posted @ 2018-09-15 15:21 丹枫无迹 阅读(887) 评论(0) 推荐(0) 编辑
摘要: 第二关依然是非常的简单 地址:http://www.heibanke.com/lesson/crawler_ex01/ 随便输入昵称呢密码,点击提交,显示如下: 阅读全文
posted @ 2018-09-15 14:46 丹枫无迹 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 黑板课爬虫闯关,第一关非常的简单,get 请求网址,在响应的 html 中用正则获取需要在网址后面输入的数字,生成新的 url,继续请求,直到通关。 阅读全文
posted @ 2018-09-15 14:34 丹枫无迹 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 正则大同小异,python 中的正则跟其他语言相比略有差异: 1、替换字符串时,替换的字符串可以是一个函数; 2、split 函数可以指定分割次数,这会导致有个坑; 3、前项界定的表达式必须定长,否则报 look-behind requires fixed-width pattern 错误。 阅读全文
posted @ 2018-09-15 09:18 丹枫无迹 阅读(813) 评论(0) 推荐(0) 编辑
摘要: 基于python 3.6 和 pygame 1.9.2 的扫雷游戏,高仿 XP 上的扫雷。 阅读全文
posted @ 2018-09-10 01:55 丹枫无迹 阅读(50100) 评论(0) 推荐(2) 编辑
摘要: 基于 pygame 的贪吃蛇游戏。附源码,可运行。 阅读全文
posted @ 2018-09-05 09:59 丹枫无迹 阅读(29543) 评论(0) 推荐(4) 编辑
摘要: 指出了《Python游戏编程入门》[美] Jonathan S·Harbour 著 一书中第四章测试打字速度程序原书代码的错误。 阅读全文
posted @ 2018-09-01 20:50 丹枫无迹 阅读(3491) 评论(0) 推荐(0) 编辑
摘要: 处女座强迫症患者,看到 function name should be lowercase 的警告就烦躁,终于可以关掉了。 阅读全文
posted @ 2018-08-31 10:44 丹枫无迹 阅读(11820) 评论(2) 推荐(2) 编辑
摘要: python3 爬虫入门级示例,附源码。 阅读全文
posted @ 2018-08-28 09:56 丹枫无迹 阅读(14696) 评论(1) 推荐(1) 编辑
摘要: Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。 阅读全文
posted @ 2018-08-17 09:58 丹枫无迹 阅读(877) 评论(0) 推荐(0) 编辑
摘要: bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。本文详细介绍了通过遍历、所搜、CSS选择器查找元素。 阅读全文
posted @ 2018-08-15 10:37 丹枫无迹 阅读(59946) 评论(0) 推荐(2) 编辑