随笔分类 -  Search Engine

获取页面Html代码,自动识别编码。
摘要:public string GetHtml(string url) { string code = DecodeData(url); HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); request.Timeout = 30000; request.Headers.Set("Pragma", "no-cache"); ... 阅读全文

posted @ 2007-11-14 09:40 尹洪亮 阅读(1590) 评论(2) 推荐(0)

Berkeley DB 基本使用.
摘要:最近在写蜘蛛。需要一张庞大的url表来记录各种url被线程的读取状况,因此需要连续的请求,以及多线程的并发操作等。很显然,sqlserver并不能完全的满足需求。推荐一下Berkeley DBBerkeley DB相当于存储于本地硬盘的一个大的Hash表,由Key,Value构成.需要下载的相关内容Berkeley DB 4.5.20Berkeley DB for .NET 0.95基本操作// ... 阅读全文

posted @ 2007-11-12 16:53 尹洪亮 阅读(1087) 评论(2) 推荐(0)

更新Lucene索引中的数据.
摘要:Lucene本身并不支持更新。所以只能选择先删除再新增记录。lucene本身支持两种删除模式1,DeleteDocument(int docNum)2,DeleteDocuments(Term term)一般使用的是第二种IndexReader reader = IndexReader.Open(path));int count=reader.DeleteDocuments(new Term("F... 阅读全文

posted @ 2007-11-11 14:30 尹洪亮 阅读(2004) 评论(6) 推荐(0)

导航