摘要: 由于毕业设计需要用到中文的自然语言处理,所以我现在一有空就疯狂地看关于这方面的相关资料。中文分词是我的课题需要解决的第一个问题。中文分词的大致算法我已经通过使用网络上的开源项目IKAnalyzer做出了一个雏形,但是有一个比较棘手的问题就是,对于这种基于中文词典的分词算法,词典的好坏特别重要,但是对于我需要分析的对象——电子商务评论来说,新词层出不穷。如果不能把这些新词很好地识别出来,那么可想而知分词的效果将大打折扣。 所幸的是让我找到了一个基于社会网络的无知识库抽词算法,能够不断完善词典。遵从CC版权协议,这个算法的思想来源于matrix67.com。算法的主要思想就是假设如果一个词语... 阅读全文
posted @ 2014-01-08 21:51 BruceShen 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 由于平时都要去实习实在抽不出时间去搞这个毕设的研究,所以趁着两天周末的时间集中精力研读中文分词的相关文献。中文分词其实也是一个被许多人做过的课题,并且网上可以随便搜到不少开源的项目。好吧,经过一系列Research,我在这里总结下现在主流中文分词的技术。首先我们要回答一个问题,就是为什么要进行中文分词。词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。然后我们来看下当前的中文分词技术的分类。该技术的实现方式现在大概有三大类:1)基于字典、词库匹配的分词方... 阅读全文
posted @ 2014-01-08 21:49 BruceShen 阅读(331) 评论(0) 推荐(0) 编辑