摘要: 1、背景 前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率。 本文将针对某个网站的验证码进行样本训练,形成自己的语言库,来提高验证码识别率。 2、准备工具 tesseract样本训练有一个官方流程说明,https: 阅读全文
posted @ 2016-06-03 18:31 黯然销魂掌2015 阅读(38460) 评论(8) 推荐(7)
摘要: 1、Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesse 阅读全文
posted @ 2016-06-03 08:56 黯然销魂掌2015 阅读(18459) 评论(0) 推荐(3)
摘要: 1、背景 随着华为手机的销量加大,华为云的捆绑服务使用量也越来越广泛,华为云支持自动同步照片、通讯录、记事本等,用着确实也挺方便的,云服务带来方便的同时,也带来了数据管理风险。华为目前只提供一个www.hicloud.com网站来管理数据,不提供windows平台的同步工具,数据管理和同步非常不方便 阅读全文
posted @ 2016-05-19 10:28 黯然销魂掌2015 阅读(10281) 评论(4) 推荐(1)
摘要: python 下有多个有关时间的模块,分别是time、datetime、calendar,今天重点讨论下time写法。 其中time模块,主要有以下方法: ltime=time.time() 获取当前系统时间,返回float型数值时间戳(当前时间相对于1970.1.1 00:00:00以秒计算的偏移 阅读全文
posted @ 2016-05-18 22:55 黯然销魂掌2015 阅读(22040) 评论(0) 推荐(0)
摘要: urllib2做为python下,在httplib之上再次封装的强大html协议实现,应用非常广泛。 虽然现在又有更新的requests,httplib2等,但urllib2胜在强大的应用基础以及众多的网络资料。 下面分别总结个人在学习中的遇到的一些tips. 1、通常写法 urllib2.Requ 阅读全文
posted @ 2016-05-15 14:47 黯然销魂掌2015 阅读(1841) 评论(0) 推荐(0)
摘要: 前文介绍了urllib2的常见问题的解决方案,今天来特别讨论下urllib2中短连接问题。 1、urllib2代码 如下文代码所示,自定义 'Connection': 'keep-alive',通知服务器交互结束后,不断开连接,即所谓长连接。 1 #测试8 使用urllib2 测试Connectio 阅读全文
posted @ 2016-05-15 14:19 黯然销魂掌2015 阅读(4952) 评论(0) 推荐(0)

联系方式:qq 16906913