星云外

2010年3月31日

nutch-default.xml 解读

摘要: 这两天花了很长的时间一直在读nutch-default.xml,nutch-default.xml为nutch的初始配置,如果你要修改其中的如果你想修改其中的选项,你可以把相应的entries拷贝到nutch-site.xml,然后进行修改.如果nutch-site.xml不存在,创建它.(Note)已经基本上将此文件整明白,可是也尚未完全明白.还有不少疑点,将此xml文件生成的html文档贴于此... 阅读全文

posted @ 2010-03-31 10:54 星云外 阅读(1407) 评论(0) 推荐(0) 编辑
想开发搜索的人必读的文章(www.lucene.com.cn)

摘要: http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx1互联网搜索其实搜索的这个核心就是分词与PageRank算法,择日和大家讨论具体的实现,依靠PR算法,sogou3.0的搜索结果相当不错,如果融入人工智能、数据挖掘自然语言理解等最新信息技术成果的搜索引擎,将会给用户带来了一种方便、易用、灵活的检索方式,为用户提供的是详实、... 阅读全文

posted @ 2010-03-31 10:40 星云外 阅读(615) 评论(0) 推荐(0) 编辑