HTK语音识别包的下载、安装(语音包模型的示例有步骤以及详情链接,本篇不作描述)
写博客的原因是有需要用AI语音识别,刚开始不知道这个东西,只是人工进行测验,比较耗时间。后来呢,了解到了这个工具,就想着试试看,网上找了很多链接,基本上是相似的,创建bin.win32后需要运行vscars32,但是我安装了vs后全局搜索也没有找到这个vscars32.bat脚本,查了好久,vs也重装了好几次都不能找到那个脚本,偶然一次看到了csdn上面的一篇文章,直接在vs里面进行操作,不需要找到vscars32这个东西,很感谢。
CSDN 关于HTK下载、编译、实例
于是,就想自己写一下,记录一下成长历程
第一步:下载HTK
链接:HTK 官方网站
ps:需要先注册,注册后一定要记住密码(邮箱会有留存,不记也行),但切记要看清密码是否包含有.*?-这类符号(踩了大坑)
下载源代码后,解压,然后需要改下文件的配置(我这边使用Windows系统,因为HTK主要为Unix-like系统设计)
找到“htk_htklib_nt.mkf”文件,文件路径如下:

使用notepad++进行修改,具体修改如下:
HGraf.null.obj改为HGraf_WIN32.obj
HGraf.null.olv改为HGraf_WIN32.olv
第二步:下载vs(如果有的话可以跳过这一步骤)
链接:VS下载官网
上述下载后为installer,双击进入下载安装

选择IDE

选择需要用到的组件(按需安装,不一定非要装截图的组件)
第三步:进入vs界面,开始进行HTK的安装流程
如图所示,打开vs,菜单栏工具-->命令行-->开发者命令提示,打开终端调试窗口

然后开始在调试窗口开始操作
1、进入htk所在文件目录

进入自己本地htk解压后的文件所在目录
2、运行mkdir bin.win32,创建新的文件夹

已经有创建,会有如上提示;创建完成后可手动进入目录查看是否成功创建
3、进入htklib,输入nmake /f htk_htklib_nt.mkf all,如下

等待安装成功后,运行cd ..返回上一界面,如下

4、进入htktools,输入nmake /f htk_htktools_nt.mkf all,如下

等待安装完成后,运行cd ..返回上一界面,如下

5、进入hlmlib,输入nmake /f htk_hlmlib_nt.mkf all,如下

等待安装完成后,运行cd ..返回上一界面,如下

6、进入hlmtools,输入nmake /f htk_hlmtools_nt.mkf all,如下

等待安装完成后,运行cd ..返回上一界面,如下

7、完成以上编译,进入本地创建的bin.win32文件夹中,可见如下34个文件

HSLab.exe 录音,标记工具
Hcopy.exe 从语音提取特征参数的工具
HInit.exe 和 HCompV.exe 对HMM模型初始化的工具,注意,这里需要对每个模型都要使用此命令进行初始化
HRest.exe 对模型进行迭代训练的工具
HParse.exe 语法转网络的工具,发音转本文用到的。
HSGen.exe 语法查错工具
HVite.exe 解码工具,也就是识别工具。可以用命令行方式使用,也可以用交互方式使用。
在实例中会用到上述程序,其他命令本文将不会用的到。
8、将bin.win32加入环境变量

环境变量添加完成后,记得点击“确定”,每个弹窗都需要点
9、确认下环境变量成功添加
查看 path=%path%;D:\SoftDownload\HTK\htk\bin.win32-->path查看如下:

截图有“D:\SoftDownload\HTK\htk\bin.win32”即可
10、到此为止,HTK就编译成功了
目前为止,没有出现异常情况,若后续有出现异常,查找解决再次后再次优化
第四步:HTK识别实例测试
1、在htk根目录下创建几个文件夹
使用“mkdir 文件夹名”创建文件夹,如下:

htk中查看确认文件夹均已被成功创建

未完成,想简单了,只是能构建一个hmm模型用于识别pcm文件,大致流程就是
1、要先建立语音识别的一个材料库,确定识别基本单元,比如单个单词yes或者单个字母f等,都可以看做一个基本元
2、录制声纹,建立mfcc声纹特征,录制时需要进行标记,每条录制需要标记三次,录制前后的静音时段以及录制中的发音时段,要分别标记。
3、为每个基本元建立单独的hmm模型
4、使用声纹对hmm模型进行训练
5、定义输入语音语法规则,发音对应文字
6、进行pcm文件的语音识别
可参考大佬博客:语音识别工具之HTK的下载安装
浙公网安备 33010602011771号