会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
jihite
不害怕 不着急 不要脸
博客园
新随笔
联系
订阅
管理
2014年3月29日
我也说说中文分词(上:基于字符串匹配)
摘要: 1. 序词是句子组成的基本单元,不像英语句子已经分好词了,中文处理的第一步就是中文分词。分词中面临的三大基本问题分词规范分词歧义未登录词的识别中文分词算法大概分为两大类第一类:基于字符串匹配 即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最...
阅读全文
posted @ 2014-03-29 11:02 jihite
阅读(11398)
评论(0)
推荐(2)
公告