2008 年 5月随笔档案 - 隨風.NET

垂直搜索引擎蜘蛛

摘要：本以为蜘蛛很简单,根据一个url,抓取到html内容,然后根据正则匹配数据入库.却发现,越看资料越复杂,蜘蛛应该根据抓取相似页面自动生成抓取模板,而且蜘蛛还要支持cookies和会自登录等多种协议.页面解析方面,也不是简单的获得标题和内容那么简单,还要做dom解析,js解析,模拟浏览器的可视化抓取等... 阅读全文

posted @ 2008-05-29 10:31 隨風.NET 阅读(529) 评论(0) 推荐(0)

利用Lucene.net搜索引擎进行多条件搜索的做法

摘要：1 联合两个索引查询，已解决： IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_o... 阅读全文

posted @ 2008-05-26 17:08 隨風.NET 阅读(858) 评论(0) 推荐(0)

蜘蛛中可以用到的正则收集

摘要：1，得到网页上的链接地址： string matchString = @"]+href=\s*(?:'(?[^']+)'|""(?[^""]+)""|(?[^>\s]+))\s*[^>]*>";2，得到网页的标题： string matchString = @"(?.*)";3，去掉网页中的所有的h... 阅读全文

posted @ 2008-05-26 17:07 隨風.NET 阅读(309) 评论(0) 推荐(0)

全国默哀网站首页都要变成灰色的简单解决办法

摘要：今天全国默哀网站首页都要变成灰色给大家一个简单的解决办法在首页的body中加上 style="FILTER: alphaopacity=80 gray"大家也可以在自己的blog中定制css 使自己的blog也变成灰色的暂时放下首页,一会撤下,大家一起来默哀! 阅读全文

posted @ 2008-05-19 11:01 隨風.NET 阅读(1893) 评论(2) 推荐(0)

公司网站的物流费用设计

摘要：公司是个电子商务网站,电子商务网站就要涉及到订单的处理及物流费用的统计.这里暂时说下物流费用的统计,订单的处理很早前就想写了,只是太懒惰了,呵呵.事先声明一下,本人只是新手,发的文章是希望大家指点的,光拍砖不给建议的,怕怕哦~~ 先大概说下公司的情况,也好让大家明白这里物流计算的特殊性.我们公司是... 阅读全文

posted @ 2008-05-16 09:33 隨風.NET 阅读(438) 评论(0) 推荐(0)

隨风.NET

05 2008 档案

导航

公告