Think Space

LCL's Blog

最新评论

我只是自己写了程序去分析抓取网站的内容,没有使用现有的爬虫。
re: 中文分词的应用——网站热点分析 hongliang133@126.com 2007-09-13 15:37  
我注意到你在分析某一个站点词频信息的时候,需要爬行所有(或很多)的页面,请问你使用的爬虫叫什么?
这里有 开放源码的中文分词组件
http://gforge.osdn.net.cn/projects/xunlong/
re: 中文分词的简要实现 急需帮助的人!! 2006-02-25 17:17  
大哥!!帮帮我!!!我的毕业项目!!和分词有关!!但是我的毕设导师老找不到!!我的qq46506731!!请联系我!!
“阅读、一个”这样的干扰词有个术语叫Stop Words在搜索引擎里他们是不需要被索引的。我现在做的是中文分词仅仅是个基础而且仅仅是个开始,软件的原始目的恰恰为了统计“的、是、了”这样的单个干扰词,所以没有将其去除。
统计出现的次数完全是为了在分析的数据足够多的情况下,能找出常用的单字干扰词。发现能找到当前站点的热点词只是个意外。
有意义的事情总是从无意义开始的:)
基础词库可以在 站点-SQLET - 开放源码的中文搜索引擎,http://www.sqlet.com/blog/index.php?sortid=3&mode= 找到。
请问那里有分词词库下。。。?
出现的位置很重要,比如“阅读、一个”,出现次数多,但其重要性很低!纯粹的统计出现次数意义不大,否则大家都可以去做搜索引擎,但是是重要的基础;更有意义是上下文相关性(含摘要)、分布式快速查询(重点:大表、索引、负载均衡)-纯属观点
re: 中文分词的简要实现 老翅寒暑 2006-02-06 08:44  
我前两年买了一本博士论文(名字忘记了),这个哥们提出的分词算法准确率高达97%左右。不过没看完,还在书架上呢
re: 中文分词的简要实现 lcl 2006-01-27 21:31  
正如“难得一蠢”所说,目前我了解的资料大都是基于词库的,如微软的office2000中使用的分词模块算法是基于规则和基于统计相结合的以词表为基础的分词算法(见文中参考资料里李东 张湘辉的文章)。以我目前所掌握的知识下一步会加强对于新词的识别,希望此分词算法能实用化。
re: 中文分词的简要实现 难得一蠢 2006-01-27 15:53  
在人工智能的书籍中讲的比较多..

实现起来的算法也是多姿多彩..现在大部分都是依靠词库..
re: 中文分词的简要实现 lovebanyi 2006-01-27 09:05  
这方面我觉得要朝人工智能发展...不然的用人来维护词库是一个非常大的工作量
新词出现比较快
re: 中文分词的简要实现 Tony Qu 2006-01-27 08:38  
支持,十分关注,期待下文