10 2018 档案

摘要:Tesseract 是一个开源的 OCR 引擎,可以识别多种格式的图像文件并将其转换成文本,最初由 HP 公司开发,后来由 Google 维护。下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 其中文件名中带有 dev 的为开发版本,不带 dev 的为 阅读全文
posted @ 2018-10-30 13:47 丹枫无迹 阅读(9527) 评论(0) 推荐(0)
摘要:写爬虫的时候,在进行 request 请求的时候,多数情况下需要添加请求头,否则就不能正常请求。 添加请求头最常用的做法是修改 User-Agent 来伪装浏览器。 以前在写请求头的时候,都是通过 copy 来解决的,昨天看到了一个库 fake-useragent,以后再也不用烦恼了。 官网地址:h 阅读全文
posted @ 2018-10-29 11:25 丹枫无迹 阅读(3095) 评论(0) 推荐(0)
摘要:第四关需要用到多线程,需要注意的是,黑板课服务器15秒内最多返回两个请求,否则返回404,所以,开20个线程和开2个线程是一样的。 阅读全文
posted @ 2018-10-29 09:54 丹枫无迹 阅读(618) 评论(0) 推荐(1)
摘要:peewee-mssql 目前版本较老,与 peewee 最新的 3.x 版本不兼容,需要将 peewee 降到2.10.2,另需要安装 pymssql 作为驱动。 阅读全文
posted @ 2018-10-23 09:30 丹枫无迹 阅读(2106) 评论(0) 推荐(0)
摘要:散列表 Python 用散列表来实现 dict。散列表其实是一个稀疏数组(总是有空白元素的数组称为稀疏数组)。在一般书中,散列表里的单元通常叫做表元(bucket)。在 dict 的散列表当中,每个键值对都占用一个表元,每个表元都有两个部分,一个是对键的引用,一个是对值的引用。因为每个表元的大小一致 阅读全文
posted @ 2018-10-09 10:36 丹枫无迹 阅读(2710) 评论(2) 推荐(1)
摘要:增量赋值运算符有 += 和 *=。+= 背后的特殊方法是 __iadd__,如果一个类没有实现 __iadd__ 方法,Python 会退一步调用 __add__ 方法。这两个方法的区别在于,__iadd__ 为就地改动,不会改变原值的内存地址,而 __add__ 方法会得到一个新对象。 阅读全文
posted @ 2018-10-05 11:32 丹枫无迹 阅读(1181) 评论(0) 推荐(0)