[NLP]分词模型、创建词库

金融领域的专有名词较多,使用通用的分词工具的话效果很不好,我使用了4个分词工具:lac,pkuseg,thulac,jieba,针对分词效果来说,thulac能考虑到金融名词,但是在数字的切词上很奇怪,其余三个则是完全不考虑金融名词,具体过程如下:

原句:三季报显示,公司资本公积比年初增加了2306.33万元,增幅达286.66%,主要系持有的可供出售的金融资产公允价值增加所致。

(1)lac

 

(2)jieba

 

(3)thulac

 

(4)pkuseg

 

没办法,只能自己训练分词模型或者使用金融词典。

解决办法如下:

1、 jieba+金融词典:如果公司金融词典那是最好了,但如果没有的话就需要自己去做词典。

做词典的方法:

(1)新词发现(或者无监督构建词库):

https://kexue.fm/archives/6920

http://www.matrix67.com/blog/archives/5044

(2)手动构建词典:首先构建搜狗输入法的金融词库;词典构建成功后,可以使用关联词扩展等方法进行词汇扩充。

注:搜狗scel转换为txt方法:

https://blog.csdn.net/qq_37788558/article/details/78716794#

2、 pkuseg,jieba,thulac等训练自己的分词模型,但由于缺少原始数据,因此该方法不易做。

posted @ 2020-08-05 17:23  justDoIT&  阅读(2189)  评论(0编辑  收藏  举报