TSE中关于分词的算法的改写--最少切分
摘要:
今天比较闲,想到以前也看了好多tse的代码,还没有上手改过呢,一时也不知从何入手,后来在书上看到了分词的算法,TSE用的是正向最大匹配,其中貌似有个好玩的算法-----最少切分,捣鼓了一下午,终于把代码弄出来了。如果有人有兴趣的话,在HzSeg中修改SegmentSentenceMM函数的代码,将s2+=SegmentHzStrMM(dict, s1.substr(0,i));改成s2+=SegmentHzStr_min_cut(dict, s1.substr(0,i));就OK了。代码显得还是有些冗余,还是有优化的余地的,有时间再改吧。 1 string get_res(map<int 阅读全文
posted @ 2012-08-04 22:20 kakamilan 阅读(1535) 评论(0) 推荐(0)