05 2008 档案

摘要:本以为蜘蛛很简单,根据一个url,抓取到html内容,然后根据正则匹配数据入库.却发现,越看资料越复杂,蜘蛛应该根据抓取相似页面自动生成抓取模板,而且蜘蛛还要支持cookies和会自登录等多种协议.页面解析方面,也不是简单的获得标题和内容那么简单,还要做dom解析,js解析,模拟浏览器的可视化抓取等... 阅读全文

posted @ 2008-05-29 10:31 隨風.NET 阅读(529) 评论(0) 推荐(0)

摘要:1 联合两个索引查询,已解决: IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_o... 阅读全文

posted @ 2008-05-26 17:08 隨風.NET 阅读(858) 评论(0) 推荐(0)

摘要:1,得到网页上的链接地址: string matchString = @"]+href=\s*(?:'(?[^']+)'|""(?[^""]+)""|(?[^>\s]+))\s*[^>]*>";2,得到网页的标题: string matchString = @"(?.*)";3,去掉网页中的所有的h... 阅读全文

posted @ 2008-05-26 17:07 隨風.NET 阅读(309) 评论(0) 推荐(0)

摘要:今天全国默哀 网站首页都要变成灰色给大家一个简单的解决办法 在首页的body中加上 style="FILTER: alphaopacity=80 gray"大家也可以在自己的blog中定制css 使自己的blog也变成灰色的暂时放下首页,一会撤下,大家一起来默哀! 阅读全文

posted @ 2008-05-19 11:01 隨風.NET 阅读(1893) 评论(2) 推荐(0)

摘要:公司是个电子商务网站,电子商务网站就要涉及到订单的处理及物流费用的统计.这里暂时说下物流费用的统计,订单的处理很早前就想写了,只是太懒惰了,呵呵.事先声明一下,本人只是新手,发的文章是希望大家指点的,光拍砖不给建议的,怕怕哦~~ 先大概说下公司的情况,也好让大家明白这里物流计算的特殊性.我们公司是... 阅读全文

posted @ 2008-05-16 09:33 隨風.NET 阅读(438) 评论(0) 推荐(0)

导航