BruceShen

2014年1月8日

摘要：由于毕业设计需要用到中文的自然语言处理，所以我现在一有空就疯狂地看关于这方面的相关资料。中文分词是我的课题需要解决的第一个问题。中文分词的大致算法我已经通过使用网络上的开源项目IKAnalyzer做出了一个雏形，但是有一个比较棘手的问题就是，对于这种基于中文词典的分词算法，词典的好坏特别重要，但是对于我需要分析的对象——电子商务评论来说，新词层出不穷。如果不能把这些新词很好地识别出来，那么可想而知分词的效果将大打折扣。所幸的是让我找到了一个基于社会网络的无知识库抽词算法，能够不断完善词典。遵从CC版权协议，这个算法的思想来源于matrix67.com。算法的主要思想就是假设如果一个词语... 阅读全文

posted @ 2014-01-08 21:51 BruceShen 阅读(716) 评论(0) 推荐(0) 编辑

毕业研究进度之中文分词

摘要：由于平时都要去实习实在抽不出时间去搞这个毕设的研究，所以趁着两天周末的时间集中精力研读中文分词的相关文献。中文分词其实也是一个被许多人做过的课题，并且网上可以随便搜到不少开源的项目。好吧，经过一系列Research，我在这里总结下现在主流中文分词的技术。首先我们要回答一个问题，就是为什么要进行中文分词。词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础与关键。然后我们来看下当前的中文分词技术的分类。该技术的实现方式现在大概有三大类：1）基于字典、词库匹配的分词方... 阅读全文

posted @ 2014-01-08 21:49 BruceShen 阅读(331) 评论(0) 推荐(0) 编辑

公告