一、模式识别学习心得以及小结

首先,先以我的理解阐述一下我对模式识别的理解:模式识别是根据已有的知识表示,对待识别模式的类别或者回归值进行预测。简单来说就是根据输入的数据进行处理后对其进行各种判断分析,从而得到其所属类型,可以使连续值(回归)预测,也可以是分类预测。

模式识别系统一般由以下5个模块组成。

  • 信息获取模块

数据的采集是进行生物识别验证的前提条件。一个性能良好的生物特征识别系统一定需要首先捕获到好的生物特征数据。利用这些数据,我们就可以进行后续的预处理、特征提取、特征选择等工作。

  • 预处理模块

在基于统计方法的生物识别技术领域,所谓的预处理一般是指去除噪声的干扰,加强有效信息的过程。前面已经提到,原始数据的采集不可避免的要引入一些噪声的干扰,对于一个实际的生物识别系统而言,预处理是一个必要的环节。

  • 特征提取模块

一般来说,从传感器得到的数据属于原始测量空间的数据,而原始测量空间的数据是无法直接进行判别分类的,或者说,直接利用原始测量空间得到的数据进行判别分类往往达不到期望的效果。通常来说,我们需要将数据从原始的测量空间“变换”到二次空间,而这个二次空间,研究人员一般将它称为特征空间。

  • 特征选择模块

数据从原始空间变换到特征空间后,得到了二次特征,而这里的二次特征不一定就是我们需要的特征,或者,变换得到的二次特征对最终的分类判别不一定有很好的作用。而特征选择的作用就是从若干二次特征中挑选对模式的最终分类判别最有帮助或者分类效果最后的一部分二次特征。

  • 分类判别模块

在得到了对分类最有帮助的二次特征之后,最终需要做的就是对二次特征进行分类判别。一般而言,简单点的分类判别方法是将特征表示为向量的形式,然后,利用诸如欧氏距离、马氏距离、卡方距离、范数等手段来计算任意两个向量之间的相似性,之后,根据计算得到的向量的相似性来进行分类判别。

常见的识别方法

MED分类器

  • 概念:基于欧式距离把测试样本到每个类的距离作为决策模型,将测试样本判定为与其距离最近的类。

  • 判别公式:$$y∈C_i,d(y,C_i)<=d(y,C_j)$$

  • 欧式距离:$$d(x_1,y_2)^2 = (x_1-x_2)\mathrm{T} * (x_1-x2)$$

  • 缺点: 没有考虑到量纲的影响,可通过特征白化消除。

MICD分类器

  • 概念:基于马氏距离的最小类内距离分类器。

  • 判别公式:$$ x∈C_1$$

\[d_M(x,C_1)<d_M(x,C_2) \]

\[(x-u_1)\mathrm{T}\Sigma_1 (x-u_1)<(x-u_2)\mathrm{T}\Sigma_2 (x-u_2) \]

  • 缺点:会偏向选择方差较大的类。

MAP分类器

  • 概念:将测试样本决策分类到后验概率最大的那个类。

  • 判别公式:$$x∈argmax P(C_i|x)$$

\[P(C_i|x)\geqslant_{(C_i)} \leqslant_{(C_J)} P(C_j|x) \]

\[P(x|C_i)P(C_i)\geqslant_{(C_i)} \leqslant_{(C_J)} P(x|C_j)P(C_j) \]

  • 缺点:没有考虑决策失误带来的风险。

贝叶斯分类器

  • 概念:在MAP分类器基础上,加入了决策风险因素,得到贝叶斯分类器。
  • 判别公式:$$R(α_i|x)<{(α_i)}>R(α_j|x)$$

\[x∈argminR(α_i|x) \]

  • 优点:在MAP分类器的基础上弥补了缺点,考虑了决策风险。

二、人工智能应用领域及其现状瓶颈

语音智能识别

语音智能识别技术的最终目的就是为了让计算机能够听懂人类语言,从而执行人的某项操作。该技术作为现阶段人工智能研究的一个主要方向与人机语音交互实现的一个关键技术,一直以来都备受各国人工智能研究领域的重点关注。而且,各种基于语音智能识别技术的产品也日渐被开发出来,并应用于各个领域,并表现出极大的应用优势,如语音通信系统、声控电话交换等。
  如今,虽然伴随各种人工智能电子产品的日渐研发,特别是进入21世纪后,嵌入式的语音处理及其识别技术也有了较大进步,基于语音识别的芯片业也日渐增加。但是,也需看到,语音识别技术应用仍存在着一些技术瓶颈,而且如何通过实现芯片同人工智能技术的有机结合来更好发展语音智能识别技术,也成为了本世纪一个重要的研究内容。

可靠性有待提高

一方面,语音智能识别技术必须排除实际应用中各种声学环境对其造成的不良影响。因为在公共场合,人能有意识排除外界噪声来获得自己想要的声音,然而计算机虽已实现智能化,但你不可能指望它在那些嘈杂环境中能够准确捕捉到你的声音,大大限制了该技术的应用范围。所以,若想在嘈杂环境中应用语音智能识别技术,就需要使用特殊抗噪麦克风,但这对于多数用户而言,是不可能实现的;另一方面,日常生活中,人们说话较随意,语言习惯较明显,如带有明显地方口音、经常重复、停顿,或插入,完全不受语法控制等,而这些语音对于经过标准式“朗读语音”存储的设备来讲,是很难识别的。为此,逐步提升语音智能识别技术的可靠性,显得很有必要。

词汇量有待丰富

可以说,语音识别系统可识别词汇量的多少,在很大程度上决定了系统可完成事情的程度,若系统所配置声学模型与语音模型限制较多,当用户所引用词汇不在系统存储范围内时,或是突然从英文转中文、俄文、韩文、日文等语言时,系统很可能出现输入混乱情况。为此,今后伴随系统建模方式的逐步革新、各种搜索计算法效率的逐步提升于与硬件资源的日渐发展,语音智能识别系统很可能实现词汇量无限制与多种语言的混合,这样一来,即便用户使用多种语言,系统也是能准确识别出来的[1]。

成本有待降低,体积有待减小

在保证质量的同时,最大限度降低其成本是实现技术商业化发展的关键所在,且普遍通过规模生产形式来实现。但对于语音智能识别技术而言,要想做到降低其成本,还存在较大困难。因为对于那些功能、性能要求较高的应用,多带有“量身定制”的标记,若想规模生产,条件还不是很成熟;只有在那些对功能、性能要求不是很高的语音识别应用上,才有可能规模生产出部分低成本产品,而这些规模产品在实际应用中又可能受到功能与性能的限制[2]。另外,微型化也将是今后语音智能识别技术实现商业化发展的一个重要手段,而要想实现这一点,同该技术本身发展程度与微电子芯片技术发展程度,均有着密切的关系。为此,把那些有着先进性能与完善功能的语音识别借助系统固化到那些更加微小的模块或芯片上,用以最大限度降低成本,也就成为了今后语音智能识别技术真正实现广泛应用的关键所在。