星云外

2010年4月4日

Introduction to Nutch, Part 1: Crawling

摘要: Introduction to Nutch, Part 1: CrawlingTom WhiteTue, 2006-01-10Nutch isan open source Java implementation of a search engine. It providesall of the tools you need to run your own search engine. But wh... 阅读全文

posted @ 2010-04-04 10:35 星云外 阅读(618) 评论(0) 推荐(0) 编辑
Nutch 实战

摘要: https://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro/2008 年 11 月 20 日本文介绍了开源搜索引擎Nutch的基本信息,并详细说明了在Eclispe下运行Nutch的步骤和需要注意的问题,并运行了一个实例对http://www.ibm.com/地址下的网页进行抓取。基本信息Nutch是一个开放源代码(ope... 阅读全文

posted @ 2010-04-04 10:29 星云外 阅读(3548) 评论(0) 推荐(0) 编辑

2010年4月3日

工作日志4.3——处理实验数据

摘要: nutch爬取了分类文档集,回头看了sg日志,重复值很高,用distinct清洗了日志数据,抽取了几个查询内容比较丰富的用户信息,加上了时间戳准备先做历史click的聚合,再帮着界面的给呈现以下。。。。其他的没什么好说的,就写刚刚完成的这部分吧实验数据范例:上游理解有歧义,首先改列名USE temp;GOEXEC sp_rename 'dbo.expri5.ClickRank', 'ClickPa... 阅读全文

posted @ 2010-04-03 21:01 星云外 阅读(279) 评论(0) 推荐(0) 编辑

2010年4月2日

tf-idf

摘要: tf-idfThe tf-idf weight (term frequency-inverse document frequency) is a weight often used in information retrieval and text mining. This weight is a statistical measure used to evaluate how important... 阅读全文

posted @ 2010-04-02 13:53 星云外 阅读(829) 评论(0) 推荐(0) 编辑

2010年3月31日

nutch-default.xml 解读

摘要: 这两天花了很长的时间一直在读nutch-default.xml,nutch-default.xml为nutch的初始配置,如果你要修改其中的如果你想修改其中的选项,你可以把相应的entries拷贝到nutch-site.xml,然后进行修改.如果nutch-site.xml不存在,创建它.(Note)已经基本上将此文件整明白,可是也尚未完全明白.还有不少疑点,将此xml文件生成的html文档贴于此... 阅读全文

posted @ 2010-03-31 10:54 星云外 阅读(1406) 评论(0) 推荐(0) 编辑
想开发搜索的人必读的文章(www.lucene.com.cn)

摘要: http://blog.csdn.net/chengg0769/archive/2007/07/27/1710979.aspx1互联网搜索其实搜索的这个核心就是分词与PageRank算法,择日和大家讨论具体的实现,依靠PR算法,sogou3.0的搜索结果相当不错,如果融入人工智能、数据挖掘自然语言理解等最新信息技术成果的搜索引擎,将会给用户带来了一种方便、易用、灵活的检索方式,为用户提供的是详实、... 阅读全文

posted @ 2010-03-31 10:40 星云外 阅读(615) 评论(0) 推荐(0) 编辑

2010年3月28日

盘古分词-中文人名识别

摘要: http://blog.csdn.net/eaglet/archive/2009/08/29/4496369.aspx作者: eaglet eaglet 曾经在KTDictSeg 中分别尝试使用规则和统计方式来识别中文(汉族)人名,但效果都不理想。在盘古分词中eaglet另辟它径,采用一种新的算法来识别中文人名,效果相比规则和统计方式要好很多。下面eaglet就来介绍这种中文人名的识别方法。 要很... 阅读全文

posted @ 2010-03-28 22:05 星云外 阅读(1023) 评论(0) 推荐(0) 编辑

2010年3月14日

zt‘sql server全文索引相关内容

摘要: http://www.tzwhx.com/newOperate/Html/3/31/311/16550.html填充全文索引实质上就是更新全文索引,其目的是让全文索引可能够反映最新的数据表内容。填充全文索引的方式填充全文索引一共有三种方式:l 完全填充:完全填充方式通常发生在首次填充全文目录或全文索引时,在前一节中所说到的“启用全文索引”时,就已经对全文索引进行了一次完全填... 阅读全文

posted @ 2010-03-14 09:38 星云外 阅读(418) 评论(0) 推荐(0) 编辑
3月13日工作笔记(补)——sql server 2008全文索引使用(part 1)

摘要: 2008版在未启动SQL Full-text Filter Daemon Launcher服务时,仍然可以建立全文索引,但是在查询时报了“SQL Server 在与全文筛选器后台程序宿主(FDHost)进程通信时遇到错误 0x80070422,请重启FDHost,运行sp_fulltext_service 'restart_all_fdhosts'命令,或重启实例的错误。在服务里将SQ... 阅读全文

posted @ 2010-03-14 09:28 星云外 阅读(376) 评论(0) 推荐(0) 编辑

2010年3月12日

3月12日工作笔记——没做什么……身体不OK,心情不OK……“程序人生”了

摘要: 看病、找配眼镜的理论几乎花了整天的时间……check了一下,昨天的数据,并不是很满意,sql server导入时虽然没有出错提示,但红叉叉还是挂在上面,对比了Access的成功率,低了很多。静下心来想想,觉得自己甚是猪头。昨天说accdb不支持,另存为mdb再导入不就好了吗……汗接下来3个小时就重新导入了一边。不到0.1%的错误率,很满意虽然... 阅读全文

posted @ 2010-03-12 22:41 星云外 阅读(244) 评论(0) 推荐(0) 编辑