posts - 223, comments - 46, trackbacks - 0, articles - 0
  博客园  :: 首页  :: 联系 :: 管理

2017年8月8日

摘要:##检查数据的维度 dim(iris) ##显示数据集的内部结构 str(iris) ##显示数据集的属性 attributes(iris) ##显示数据集中每个变量的分布情况 summary(iris) ##显示iris数据集列Species中各个值出现频次 table(iris$Species) ##根据列Species画出饼图 pie(table(iris$Species)) ... 阅读全文

posted @ 2017-08-08 06:03 天戈朱 阅读 (292) 评论 (0) 编辑

2019年9月17日

摘要:Tesseract4.X已经有了初步成效(见下面的对比), 但目前结果对于训练之外的数据, 仍会有很大的偏差。想要更好的 OCR 结果, README 中重点强调的一点是: 在交给 Tesseract 之前, 改进图像的质量. 图像质量 Tesseract 处理 300 dpi 以上的图片会更加出色 阅读全文

posted @ 2019-09-17 16:51 天戈朱 阅读 (87) 评论 (0) 编辑

摘要:参考:https://groups.google.com/forum/#!msg/tesseract-ocr/MSYezIbckvs/kO1VoNKMDMQJ V4版本代码示例 : 合并识别结果 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样 阅读全文

posted @ 2019-09-17 16:51 天戈朱 阅读 (40) 评论 (0) 编辑

摘要:OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。优秀的开源OCR软件包括: Tesseract:原本由惠普开发的图像识别类库te 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读 (65) 评论 (0) 编辑

摘要:由于tesseract的中文语言包“chi_sim”对中文字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。 工具: Java虚拟机,由于jTessBoxEditor的运行依赖Java运行时环境,所以需要安装Java虚 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读 (70) 评论 (0) 编辑

摘要:通过命令:tesseract -h 可查看 OCR操作脚本参数: 其中参数说明: –-oem:指定使用的算法,0:代表老的算法;1:代表LSTM算法;2:代表两者的结合;3:代表系统自己选择。 –-psm:指定页面切分模式。默认是3,也就是自动的页面切分,但是不进行方向(Orientation)和文 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读 (61) 评论 (0) 编辑

摘要:Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读 (85) 评论 (0) 编辑

2019年8月24日

摘要:对于Python数据可视化库,matplotlib 已经成为事实上的数据可视化方面最主要的库,此外还有很多其他库,例如vispy,bokeh, seaborn,pyga,folium 和 networkx,这些库有些是构建在 matplotlib 之上,还有些有其他一些功能。 目录 matplotl 阅读全文

posted @ 2019-08-24 08:46 天戈朱 阅读 (114) 评论 (0) 编辑

摘要:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。 安装 命令:pip install beautifulsoup4 解析器 主要的解析器,以及它们的优缺点如下: 安装命令: 阅读全文

posted @ 2019-08-24 08:45 天戈朱 阅读 (59) 评论 (0) 编辑

2019年8月20日

摘要:智能视频分析技术指计算机图像视觉分析技术,是人工智能研究的一个分支,它在图像及图像描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容。智能视频分析技术涉及到模式识别、机器视觉、人工智能、网络通信以及海量数据管理等技术。视频智能分析通常可以分为几部分:运动目标的识别、目 阅读全文

posted @ 2019-08-20 19:45 天戈朱 阅读 (32) 评论 (0) 编辑

摘要:参考资料:https://blog.csdn.net/kwame211/article/details/77337166, 仅作为个人学习笔记。人工智能的底层模型是"神经网络"(neural network)。 1、感知器 历史上,科学家一直希望模拟人的大脑,造出可以思考的机器。人为什么能够思考?科 阅读全文

posted @ 2019-08-20 19:44 天戈朱 阅读 (28) 评论 (0) 编辑