深度学习+CRF解决NER问题

参考https://github.com/shiyybua/NER

1、开发环境:python3.5+tensorflow1.5+pycharm

2、从https://github.com/shiyybua/NER load工程NER,由于下载的原始代码是基于python2.7的,首先利用2to3.py工具将rnn.py、utils.py转换为python3.x代码。

3、将工程导入pycharm中,此时直接运行会报'Parent module '' not loaded, cannot perform relative import'错误,此时可以建一个package,将代码文件拷贝到package,并修改import部分,如下:

from package.utils import *

解决问题。

4、准备训练文件

4.1准备词向量文件:利用word2vec训练产生词向量,词向量训练的源文件可直接使用load工程中的source.txt,实验中生成的词向量文件source.vec,格式如下:

 

可以看到生成的词向量有400维,将source.vec第一行去掉,并修改配置文件config.py的词向量默认维数为400。注意词向量的路径使用原始路径有问题,可以改为D盘根目录:

tf.app.flags.DEFINE_string("word_embedding_file", 'd:/source.vec', "extra word embeddings.")

4.2、准备source_vocab.txt

将源文件source.txt数据处理成一个词一行的格式,注意文件中不能有空格/空行:

 

 

 4.3、训练

特别注意:每次训练时,当model文件已有训练好的模型,系统会自动加载已有模型,如果是新语料这时会出错,需要要删除旧的model文件夹的文件避免加载已有模型。

posted @ 2018-03-23 15:43  chease  阅读(965)  评论(1编辑  收藏  举报