2018 年 6月 18 日随笔档案 - 我们都是大好青年

2018年6月18日

摘要：数据验证尽管在测试环境下模型工作良好，但是实践是检验真理的唯一标准。在本节中，我们通过自己的模型，与京东的测试数据进行比较验证。衡量OCR系统的好坏有两部分内容：(1)是否成功地圈出了文字；(2)对于圈出来的文字，有没有成功识别。我们采用评分的方法，对每一张图片的识别效果进行评分。评分规则：阅读全文

posted @ 2018-06-18 17:47 我们都是大好青年阅读(517) 评论(0) 推荐(0)

光学字符识别OCR-7语言模型

摘要：由于图像质量等原因，性能再好的识别模型，都会有识别错误的可能性，为了减少识别错误率，可以将识别问题跟统计语言模型结合起来，通过动态规划的方法给出最优的识别结果。这是改进OCR识别效果的重要方法之一。转移概率在我们分析实验结果的过程中，有出现这一案例。由于图像不清晰等可能的原因，导致“电视”一词被阅读全文

posted @ 2018-06-18 17:44 我们都是大好青年阅读(820) 评论(0) 推荐(0)

光学字符识别OCR-6 光学识别

摘要：经过前面的文字定位和文本切割，我们已经能够找出图像中单个文字的区域，接下来可以建立相应的模型对单字进行识别。模型选择在模型方面，我们选择了深度学习中的卷积神经网络模型，通过多层卷积神经网络，构建了单字的识别模型。卷积神经网络是人工神经网络的一种，已成为当前图像识别领域的主流模型。它通过局部感阅读全文

posted @ 2018-06-18 17:31 我们都是大好青年阅读(503) 评论(0) 推荐(0)

光学字符识别OCR-5 文本切割

摘要：经过前面文字定位得到单行的文本区域之后，我们就可以想办法将单行的文本切割为单个的字符了。因为第三步的模型是针对单个的字符建立的，因此这一步也是必须的。均匀切割基于方块汉字的假设，事实上最简单的切割方法是均匀切割，也就是说不加任何判断，直接按照高度来将单行文本切割为一个个的正方形图片。这种思路可以阅读全文

posted @ 2018-06-18 16:27 我们都是大好青年阅读(490) 评论(0) 推荐(0)

光学字符识别OCR-4

摘要：经过第一部分，我们已经较好地提取了图像的文本特征，下面进行文字定位。主要过程分两步： 1、邻近搜索，目的是圈出单行文字； 2、文本切割，目的是将单行文本切割为单字。邻近搜索我们可以对提取的特征图进行连通区域搜索，得到的每个连通区域视为一个汉字。这对于大多数汉字来说是适用，但是对于一些比较简单阅读全文

posted @ 2018-06-18 16:14 我们都是大好青年阅读(291) 评论(0) 推荐(0)

光学字符识别OCR-3

摘要：连通性可以看到，每一层的图像是由若干连通区域组成的，文字本身是由笔画较为密集组成的，因此往往文字也能够组成一个连通区域。这里的连通定义为 8邻接，即某个像素周围的8个像素都定义为邻接像素，邻接的像素则被定义为同一个连通区域。定义了连通区域后，每个图层被分割为若干个连通区域，也就是说，我们逐步阅读全文

posted @ 2018-06-18 15:49 我们都是大好青年阅读(295) 评论(0) 推荐(0)

光学字符识别OCR-2

摘要：灰度聚类接着我们就对图像的色彩进行聚类。聚类的有两个事实依据： 1.灰度分辨率肉眼的灰度分辨率大概为40，因此对于像素值254和255，在我们肉眼看来都只是白色； 2.设计原则根据我们一般的审美原则，在考虑海报设计、服装搭配等搭配的时候，一般要求在服装、海报等颜色搭配不超过三种颜色。更通阅读全文

posted @ 2018-06-18 15:16 我们都是大好青年阅读(352) 评论(0) 推荐(0)

光学字符识别OCR

摘要：光学字符识别（Optical Character Recognition,OCR），是指将图像上的文字转化为计算机可编辑的文字内容。分析流程：作为OCR系统的第一步，特征提取是希望找出图像中候选的文字区域特征，以便我们在第二步进行文字定位和第三步进行识别。在这部分内容中，我们集中精力模仿肉眼对阅读全文

posted @ 2018-06-18 11:52 我们都是大好青年阅读(576) 评论(0) 推荐(0)

我们都是大好青年

公告