说说语音识别和苹果的SIRI

随着加入具有较多中国特色的IOS6即将发布，支持中文的SIRI再次成为引领技术潮流的热点。我倒并不对SIRI感冒，因为我总把它当成了语音识别技术和云计算技术的融合，它逃脱不了底层的语音识别技术，而SIRI底层也确实用了Nuance的语音识别技术，Nuance应该算是世界上最好的语音识别技术公司了。

最近公司新买了个iPhone 4S(它对IOS6的支持度最好)，我们在上面把玩了一下SIRI，不得不说，SIRI确实是很NB的一项技术，可以帮我找附近的咖啡店，可以给我通讯录里的朋友打电话发短信，它对自然语言的识别达到了极高的层度，但还不能称之为登峰造极，因为时常也会和我们讲一些火星语，应该表示它识别不了了。我对如此出色的SIRI并不感到惊讶，因为在去年的时候我就见过类似的技术，那是在去年的Nuance开发者大会上。那次大会上Nuance给我们展示了几项技术，最重点的是Dragon Go和Dragon Search，中文名为声龙搜索和声龙听写，这两个产品在苹果的appstore上可以找到。

nuance-appstore

声龙搜索是通过语音识别将语音转换成输入文字，并进行自动搜索，搜索引擎可以随意切换，省去了输入文字和切换搜索引擎的烦恼。而声龙听写则是一个将语音识别成文字并可以通过短信、微博等进行发送的软件，用说的方式将你的文字输出来，国内的语音技术老大哥科大讯飞也提供了类似的软件，叫做讯飞口讯，功能都类似。不过我对这两个软件不是很有兴趣，因为搜索我还是习惯手动输入的，而想用说话代替手写来完成短信，也是相当的不容易，因为识别率和纠错等都是问题。

不过，我对他们在PC上演示的车载语音识别系统挺感兴趣，据说是给车厂客户做的DEMO，主要演示的是简要的自然语言识别技术。比如能够通过说“我想听‘吻别’”，就能给你播放吻别这首歌曲，比如说“我有点冷”，就能给你调高车内的空调温度。这多少有点SIRI的感觉了吧，至少是简化版的SIRI吧。后来他们来我们公司解决问题的时候，我顺便问他们要了一下DEMO，其实这个软件基本能实现如下几个功能：

其中自然语言理解又能实现如下功能：

看上面的命令，也能识别不少呢，只是规则性太强了一些。但这能算做是最简单的自然语言识别吗？完全可以。我相信所谓的自然语言识别也是有它自己的规则存在的，就像编写的程序最终会转换成0101来控制一样，只是这个规则通过海量的常用词语、短语、短句分析，建立了一套自有的基本可以识别绝大部分我们自然所说代表所想的技术，看起来就像是可以识别我们的自然交谈中说出的话了。当然，这样强大的自然语言识别技术离不开一套强大的识别库，这个库不是放在本地就能存下的，所以基本上要使用云计算技术，将本地的语音发送到服务器进行识别，并进行自然语言分析，这也是为什么声龙听写和讯飞口训软件很小的原因，因为他们都是将文件发送到云端进行识别处理的。另外，像凯立德导航、高德导航、图吧导航等手机版导航软件，这些软件都使用了科大讯飞的云端语音识别技术，这得益于科大讯飞提供的讯飞语音云(BTW：科大讯飞还提供了免费的SDK供大家整合语音识别功能，不过据说是一年的有效期，后续可能需要商务谈判方可继续使用)。除了云端语音识别外，也有一些本地的语音识别，像Garmin以及任我游这些非在线PND导航自带的语音识别，就是用了本地识别库。关于语音识别的过程，我是这么想的，不一定完全准确，欢迎大家指正。

这个演示软件给了我们两点启示：一是我们也可以建立一套自己的常用语音识别库，加上成熟的语音识别技术，做出自己的SIRI，二是做出自己的SIRI难度极高，没有点流行的云计算技术很难达到效果，但也不代表不能做。现在，凯立德手机导航软件中所谓堪比SIRI的声控导航功能，就是使用了类似手法实现的。

语音识别和自然语言识别本身是就是很前沿的技术，是一项很有未来的技术。国外有Nuance，国内有科大讯飞，科大讯飞也凭借语音识别技术而被评为国内最具投资潜力的十大公司之一。但技术也还有差距，举例来说，语音识别对语音输入的要求很高，比如首先需要有一个好的麦克风(此点手机相比其他设备要好，而苹果手机应该相比其他手机要好)，获得一个较好的语音来源，然后需要对语音进行处理，分析其中的波形并剔除掉杂音，国外的技术似乎比国内的好一点。再说一句凯立德他们宣称堪比SIRI的语音声控技术，其实本身和Nuance的DEMO差不多，但用下来很不理想，一是识别率是个问题，二是搜索结果让我很不满意，最简单的例子是我说我要去希尔顿大酒店，结果给我一堆外地的希尔顿，没有一个上海的，而SIRI能够帮你找到附近的咖啡店，这也是差距。

对语音识别和自然语言输入，我是充满了无比的期待，比如写这篇文字，我只需从头说到尾说一遍，而不需要任何的停顿和回退，说完后文字就已经输出了，省去了我在电脑和手机上打字的痛苦，但事实上很难做到，常见的语句还行，不常见的就比较难以识别了，为此我还要手动移到错字的地方进行删除后再语音输入，结果就大大降低了文字输入的效率，这也是我不愿意使用语音输入的重要原因，不过这些难题语音识别的公司也在着力研究解决了，期望有更理想的语音输入效果。

补充一句，最近在Google I/O大会上，Google演示的Android 4.1系统也搭载了语音识别技术，但和SIRI不同的是：它支持Offline。这一点，我也觉得挺纳闷的，若离线状态下使用语音识别，那么这个库文件需要多大？Android 4.1的发布是否会变得很臃肿？识别率是否会比在线的差？虽然我搞不懂这些问题，但不得不说，离线语音识别，若识别率够高，那我一定双手双脚支持，因为这样确实可以省去用手指输入文字的痛苦。另外，除了Google推离线语音输入同Apple抗衡外，据说LG公司也发布了Qucic Voice来抗衡SIRI。看来，语音大战不可避免，我们作为用户，只希望能看到我们想要的好用的语音识别和输入功能，真正的为我们的日常生活所服务，而不仅仅是一个噱头:)

posted on 2012-07-11 17:19 Rover.Tang 阅读(5479) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

罗孚传说

公告