第一次作业

记录机器学习等人工智能领域的前沿技术介绍、展望、应用,了解我们国家的先进或不足,存在的卡脖子技术等

语音识别

  • 语音识别技术是利用机器识别和理解人类语言信号并将其转为相应的文本和命令的技术,属于多维模式识别和智能计算机接口技术。

  • 国外研究背景
    语音识别技术作为信息技术中人机交互的关键技术,起源于上个世纪20年代的一种Radio的玩具狗,这款玩具狗在被呼叫时可以弹出来,被视为语音识别的鼻祖。
    20 世纪90年代,语音识别发展极其迅猛,众多著名公司甚至IBM、苹果等都开始着重针对语音识别技术研发进行大力支持,导致当时语音识别研究异常火热,吸引了众多相关领域的科学家,纷纷着手于语音识别研究。对于语音识别领域,更加重大的突破是2011年深度学习理论的产生。当时,由微软的研究员等人一同设计了第一个基于深度学习理论的语音识别系统,识别效果不错,识别的相对错误率下降了25%。而这个系统正是深度学习进行大规模研究发展和改进的切入点。
    此后,借助于更多的技术,各大公司均采用深度学习技术应用到语音产品中,性能上得到显著的改善,并发布到市场中。随着深度学习理论不断研究,2014年微软推出了语音助手“小娜”(Cortana),并且将其应用到Win10操作系统之中。2017年,微软语音识别系统错误率由5.9%降低到5.1%,达到了专业速记员水平。

  • 国内研究背景
    相比于国外,国内对语音识别的研究起步较晚,在最开始的语音识别领域研究进度缓慢,但是随着改革开放,不断引进新技术,政府也加大语音识别技术项目的研究力度,语音识别的研究水平也基本上与国外保持同步。
    例如:清华大学电子工程系和专用芯片设计研究小组主要对小词汇量语音识别进行研究,并且在非特异性汉语数字串语音识别系统中识别率达到94%、在对5000R&D字包裹检查的语音识别系统中识别率达到96%。
    近两年,AI技术兴起,深度学习理论不断的完善,国内如阿里、百度、腾讯、科大讯飞等各大公司也纷纷发力语音识别,前景一片看好。
    如:科大讯飞将深度学习网络模型应用于中文语音识别,并且将语音听写识别准确率达到了95%以上;百度一直致力于人工智能领域研究,建立了基于深度学习的研究院,包括各种技术研究,尤其是语音识别技术研究,将手机语音助手采用深度学习技术进行语音识别,不仅提高了处理海量数据的效率,而且识别率也能够大幅度提升。阿里公司开源自主研发新型的智能语音识别模型,利用云计算和大数据处理方式将语音识别进一步推向智能化的方式进行高精度识别。腾讯公司也针对语音识别领域中的文字转换进行了智能化研究,应用到了所有的腾讯应用产品中,给生活带来了极大的便利。

  • 主要技术
    对语音识别影响最大主要有语音特征参数提取算法和声学模型建模两方面,总结来说:
    (1) 语音信号传递信息离不开语音特征参数的作用,EMD-FD和MFCC语音特征参数混合的语音特征参数相比于单一的LPCC和MFCC语音特征参数,取得更好识别效果,平均等错率下降2%以上。
    (2) 声学模型是语音特征处理最为重要的关键技术,其中GMM-HMM 模型语音识别效果优于 HMM 模型语音识别效果,平均等错率下降了1.5%,且几乎不受语音训练量的影响,提高了声学模型的鲁棒性。
    (3) 在语音识别中引入深度学习理论使得识别效果与效率都有着明显的提升,基于DNN-HMM模型与传统的GMM-HMM模型相比,平均等错率下降了 6.6%,而基于LSTM-HMM模型与传统的GMM-HMM模型相比,平均等错率下降了7.6%;根据不同测试长度的语音序列进行分析,DNN-HNN模型更适用于长语音序列识别,而LSTM-HMM模型适用于任意语音序列识别。

  • 应用
    语音识别、智能语音对话的应用已经在生活中各个方面得到体现,各种基于语音智能识别技术的产品也日渐被开发出来,并应用于各个领域,并表现出极大的应用优势,例如,很多设备的声控开关,智能手机的语音控制功能等。
    在医疗上(以下主要对医疗方面进行介绍),语音识别技术已经在美国、欧洲等地区应用,美国Nuance公司的英语语音识别技术及电脑辅助病历抄写系统是先将患者病情口述下来,存为语音档案,同时直接传送至语音识别服务器进行转录,该系统的应用,使处理病历的时间从原本的5天降至不足1 个小时。

  • 局限因素
    语音识别技术并未在我国医疗领域中广泛应用,除了医院信息化发展阶段的限制之外,还有其他一些因素
    医学词汇专业性强和特殊符号多、表述人地方口音较重或发音不准、表述人情感影响、工作环境噪杂、采音设备自身抗干扰差等,均可导致语音识别准确度不高。汉字识别技术发展不成熟也是阻碍其进一步发展的关键原因,中文特有的多音字,我国有415 个基本无调音节,构成七千多个基本汉字的发音,使中文语音比英文更难识别。
    临床应用率不高使语音识别技术仍处于实验阶段,难以更新改进。年轻医师更偏好于利用模板录入病历信息、语音转换精准度不够等都是阻碍语音识别技术发展的因素。尽管语音识别率目前已达到96%,但仍不能完全满足实际临床工作的需要,特别是对特殊符号的识别。另外,临床医师在书写病历时,对于患者治疗措施的制定等内容需要思考,而语音识别不允许长时间中断;同时,医师在进行语音识别前后需要键盘鼠标的配合,操作不便。

  • 总结与展望
    语音识别技术的应用在一定程度上可以降低临床医师工作强度、提高工作效率以及降低医院日常运作成本。
    目前国内诸如北京协议医院、北京大学口腔医院、陆军军医大学第一附属医院、青岛大学附属医院等已经在探索语音识别技术并将其应用到临床工作中。但语音识别技术仍难以完全满足对文书要求严格的医疗行业。
    另外当前进行语音识别技术探索的医院多数仅限于语音转为文字,相当于语音输入法,并没有真正实现智能语音、人机交互技术。相信在未来发展中,通过不断探索实践,语音识别技术在医院应用中可以实现人机对话,通过语音口令唤醒程序指令,并根据语音准确快速地记录执行,真正地实现医疗智能化。

  • 参考文献
    基于深度学习的语音识别方法研究,2019,陈洪恒。

posted @ 2020-04-23 13:28  kkkoover  阅读(161)  评论(0编辑  收藏  举报