摘要: 1. 序词是句子组成的基本单元,不像英语句子已经分好词了,中文处理的第一步就是中文分词。分词中面临的三大基本问题分词规范分词歧义未登录词的识别中文分词算法大概分为两大类第一类:基于字符串匹配 即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最... 阅读全文
posted @ 2014-03-29 11:02 jihite 阅读(11398) 评论(0) 推荐(2)