摘要: 一、爬虫技术研究综述  引言  随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:  (1) 不同领域、不同背景的用户往往具有不... 阅读全文
posted @ 2009-10-24 13:26 杨子宜 阅读(439) 评论(0) 推荐(0)
摘要: 一个简单的java网络爬虫,由于时间原因,没有进一步解释.   需要的htmlparser.jar包到官方网上去下.  ---------------Spider.java---------------------------  import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL;... 阅读全文
posted @ 2009-10-24 11:58 杨子宜 阅读(788) 评论(1) 推荐(0)
摘要: Lucene应用越来越多,在对中文对索引过程中,中文分词问题也就越来越重要。在已有的分词模式中,目前比较常用的也是比较通用的有一元分词、二元分词和基于词库的分词三种。一元分词在Java版本上由yysun实现,并且已经收录到Apache。其实现方式比较简单,即将每一个汉字作为一个Token,例如:“这是中文字”,在经过一元分词模式分词后的结果为五个Token:这、是、中、文、... 阅读全文
posted @ 2009-10-24 11:39 杨子宜 阅读(807) 评论(0) 推荐(0)
摘要: 来源:http://hi.baidu.com/silyt/blog/item/50be8bfd01746c41d6887d89.htmlLucene几种中文分词的总结2008-04-07 09:10IK_CAnalyzer下载地址:http://cn.ziddu.com/download.php?uid=ZrKcmJepZbOb4palZLKWlJiiZaycmps%3D4目前最新版本的lucen... 阅读全文
posted @ 2009-10-24 11:37 杨子宜 阅读(532) 评论(0) 推荐(0)