随着大数据、人工智能等先进技术的高速发展,在各行业领域使用也越来越频繁,如何利用这些先进且成熟的技术处理图像的识别和技术的应用就显得越来越重要。本文将利用图像预处理的技术,在图像识别与处理技术应用的基础上,对企业非结构化关键数据信息进行分析,根据现有图像处理技术的方法,探讨其图像识别处理的可行性,最终实现其在非结构化关键数据挖掘上的应用。

一、背景

  在制造行业产品研发设计过程中,非结构化关键数据常常包括各类研究报告数据信息等,这些数据信息通常是以PDF、JPG等形式存储,并且大多需要通过人力进行处理,将其转化为企业可以正常利用的信息。但是对于这类信息通过人为一个一个缓慢地识别并将其保存为可处理的文本信息,会极大降低企业对于非结构化的关键数据的转换效率,同时还增加人力资源负担,增加企业的经济投入。基于此问题,对于需要分类识别的非结构化数据而言,利用人工智能计算机视觉图像识别和理解技术,可以提高制造行业企业非结构化关键数据挖掘的准确度、提升挖掘的效率、扩大挖掘的范围。

  简单来说,产品研发中,非结构化关键信息的挖掘和收集是极为重要的,例如设计文档、报告信息等,均为图片数据和PDF数据。利用条件规则对图片和PDF中关键数据进行提取后,可将此部分数据转化为结构化数据。在实际应用上,可延伸到多类企业的应用场景。利用图像识别手段整理这些重要非结构化信息,可以充分发挥数据价值,辅助确保产品在研发、生产过程中的一致性,从而保证产品的有效产出,推动智能制造业的高质量发展。

  当前如何科学有效地使用图像识别和处理技术,是企业非结构化关键数据挖掘的一大难点。通常企业需要先收集一定量的图片,作为数据集将其预处理,而预处理是图像识别相当重要的一点,预处理过程就是在图片、PDF等非结构化数据中提取关键特征的手段,关键特征点提取越准确,后续在特征学习中,算法会被训练得越发有效;如果预处理未能做好,之后训练出来的模型将会出现识别不准确的问题,即图像中包含的有用信息过少,模型过多关注无用信息会导致无法收敛等问题。

二、简介

  图像预处理是指对图像进行一系列的操作,以改善图像的质量、减少噪音、增强图像特征等。

  预处理的主要目的是消除图像中无关的信息恢复有用的真实信息增强有关信息的可检测性和最大限度地简化数据从而改进特征抽取、图像分割、匹配和识别的可靠性。

  图像识别主要是需要针对图像进行预处理,预处理过程是所有后续工作的基础,是一个相当重要的部分。图像预处理结果的好坏对最终识别效果有相当大的影响。预处理过程是多个变换过程的综合,包含以下几个主要过程:将输入的彩色图像转换为灰度图像;将灰度图像做二值化处理;背景噪音的消除;图像倾斜检测与校正等等。

三、预处理过程

  1.彩色图像转换为灰度图像,以及灰度图像的二值化

  一篇存储在纸上的文档,要输入计算机中,首先要通过扫描仪扫描成为数字图像。它可以是彩色图像,也可以是灰度图像,或者是二值图像,取决于扫描的具体过程。但是一般来说,文档处理系统要处理的是灰度图像,而且很多成熟的图像处理算法和工具包也是针对灰度图像的。并且在进入识别阶段时,识别引擎一般是针对二值图像的。因此,我们必须对输入的图像进行处理,将彩色图像转化为灰度图像,再对其进行二值化。

  图像的这种转换必然会引起信息丢失,因此采用什么样的算法能够最大限度地保留识别时必需的信息(如字符的连通性),去掉不必要的背景信息和噪音,并且执行时间在实际可接受的范围内,是人们一直以来努力研究的问题。

  彩色图像转换为灰度图像的原理如下:彩色图像使用一个三维矢量(R,G,B)来表示一个像素点,而灰度图像用一个灰度级(gray level)来表示。因此这种转化可以看作是从一个三维矢量到一个一维矢量的投影操作。通常,可以用一个线性变换来完成这一过程,如下式:

  这里,R(x,y),G(x,y),B(x,y)分别为像素(x,y)点的R,G,B三个分量的值,l,k,m为预先确定的参数。P(x,y)为求得的灰度值。

  图像的二值化,实际上是图像阈值化问题的一种特殊情况。图像的阈值分割是指,按照灰度级将图像空间划分成为与现实景物相对应的一些有意义的区域。在各个区域内部,灰度级是均匀的,而相邻区域的灰度级是不同的,其间存在着边界。阈值分割比较困难,但在机器视觉、文字识别、生物医学图像分析、指纹与印草鉴定、光学条纹判读以及军事目标识别等领域应用极为广泛。一般地,我们可以选择多个阈值,把图像的整个灰度级范围划分为几段,称之为多阈值分割。如果我们只选择单个阈值,将图像的灰度级范围划分为前景(或称目标)与背景两部分,就称为图像的二值化。

  在我们所研究的文档图像处理这一特定领域中,图像的二值化一般是指将灰度图像转化为只包含黑、白两个灰度的二值图像。文档图像可以看作是由文字、背景、图片三类对象组成,而我们最关心的是文字区域二值化后的结果。

  2.图像背景噪音的消除

  噪音干扰是指存在于图像中且与图像内容无关的任何不希望的信号。这些噪音会对图像信息的获取和处理造成影响,从而降低图像识别的质量。为了应对噪音干扰,我们可以采取以下几种方法:

  首先,我们可以通过提高图像采集设备的质量来减少噪音的干扰。例如,选择高像素的相机和优质的镜头,可以减少图像采集过程中的噪音和失真。此外,使用适当的曝光和快门速度设置,可以减少图像中的运动模糊和光线条件不好所导致的噪音问题。

  其次,对于已经采集到的图像,我们可以使用图像处理技术来减少噪音干扰。图像滤波是一种常用的降噪方法。通过应用滤波算法,我们可以平滑图像并去除其中的噪音。常见的滤波算法包括均值滤波、中值滤波和高斯滤波等。选择合适的滤波算法取决于图像的特点和需要保留的细节。此外,频域滤波也是一种有效的降噪方法。通过将图像转换到频域,我们可以利用频域滤波技术去除噪音。

  除了使用图像处理技术,我们还可以利用机器学习和深度学习算法来应对噪音干扰。这些算法可以通过训练大量的图像数据来识别和过滤噪音。例如,卷积神经网络(CNN)在图像识别中表现出色,其能力在于通过学习图像中的特征,从而对噪音进行有效的滤除。

  然而,要注意的是,在应对噪音干扰时我们也要平衡准确性和效率之间的关系。有时候过于强调准确性可能导致算法的运行速度变慢,不适用于实时场景的应用。因此,在选择算法时需要综合考虑各种因素,根据实际需求进行权衡。

  除了技术层面的应对措施,我们还可以通过优化图像采集环境和设置预处理规范来减少噪音干扰。在采集图像时,我们应该避免过度曝光和过度压缩等问题。同时,在图像处理过程中,我们要严格遵守预处理规范,以确保图像的质量和一致性。

  3.图像方向的自动检测与倾斜校正

  文档处理系统要求所处理的图像是正的,或者倾斜角度已知,否则许多对图像的操作,例如投影分析,图像分割等等,就无法进行。显然,扫描进计算机的文档图像无法保证一定是正的,因此需要利用倾斜检测和校正的方法对其进行处理。

  经常采用的倾斜角度检测的方法有:基于文字行的检测方法,投影轮廓分析方法,和Hough变换方法等等。

  基于文字行的检测可以用于已知文字行方向(水平或竖直)的文档图像。它利用了对图像中连通体的分析。我们知道,连通体是一个灰度值相同的像素的集合,这个集合中任意两个像素之间都是8-近邻关系。可以用包含连通体内像素的最小矩形来表示连通体,它描述了连通体的大小和位置信息。如果已知文字行方向,我们就可以将连通体合并成文字行,并用直线逼近。该直线的倾斜角即为文字行的倾斜角。对整幅图像的文字行作同样分析,选出出现频率最高的角度,即可作为图像的倾斜角。

  投影操作也是一种基本的图像处理方法。将图像按一定方向作投影,可以得到在该方向坐标轴上分布的波形,它描述了图像沿该方向上的黑像素分布情况。如果图像文字行是水平的,那么沿水平方向的投影波形将具有明显的波峰和波谷。基于这一点,我们可以在候选倾斜角度范围内转动图像,直至出现明显的波峰和波谷为止,这时得到的角度就是倾斜角度。

四、预处理方法

  1.滤波

  滤波(Wave filtering)是将信号中特定波段频率滤除的操作,是抑制和防止干扰的一项重要措施。ps:均值、中值、高斯滤波在一定程度上会影响图像的清晰度,清晰图像无需进行滤波,一般都是有明显的噪点时才进行滤波处理。

  2.图像的归一化

  归一化和直方图有相似性,在一定程度上可以将诡异哈理解为0-255的像素值变为0-1之间,缩⼩了其分配距离。ps:在目标与背景灰度差别较⼤时,用较好,否则会出现粘连导致无法分割。

  3.图像的平滑(滤波)

  平滑是对图像灰度跳变的一种抑制,图像的锐化则相反,它是对图像的灰度跳变部分的一种增强,突出图像的细节变化信息;PS:平滑和锐化都属于滤波,都用同一个函数,都是先建立个滤波器,但区别在于选择的方式算⼦不同;例如:建立一个滤波器为:h = fspecial(type,parameter);再通过该滤波器对图像进行滤波决定是平滑还是锐化:filterImage = imfilter(srcImage,h)。

  4.锐化

  锐化往往也“增强”了噪音,可以将图像锐化和平滑结合使用,若图像本身就有很明显的噪音,可先平滑再锐化,若图像锐化后有了噪音,可再进一步去进行平滑处理。

五、总结

  总结而言,图像识别中,图像质量的好坏直接影响识别算法的设计与效果精度,那么除了能在算法上的优化外,预处理技术在整个项目中占有很重要的因素,然而人们往往忽略这一点。图像预处理依据相应的处理过程,结合滤波、图像的归一化、图像的平滑、锐化等处理方法,可以有效提高模型的精度和鲁棒性,为后续的图像识别和分析工作奠定良好的基础。