01 2008 档案

摘要:
通过.Net 的WebClient类,可以轻松完成网站数据抓取的任务。比方说我们有一个需求,要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页,得到页面的数据后进行精确提取,最后把我们想要的数据以一定的格式录入数据库以便分析。
实现思路:
1、WebClient类下载网页源码。
2、得到源码后,过滤掉不必要的特殊字符。
3、从过滤后的源码中获取指定的内容。
4、用正则表达式精确提取内容。
5、特殊条件处理(文章里有例举)
6、写入数据库。阅读全文
posted @ 2008-01-26 11:06 早班火车 阅读(5474) | 评论 (24) 编辑
摘要:


最近常在园子里转,看大家的blog,很多blog上都有一些插件和自己做的一些增加用户体验的效果,所以一时兴起,自己也DIY一把,做了一个和类似Justin Young blog上的效果,只不过是读取RSS,顺便也修炼一下自己的javascript,其中也遇到了头疼的跨域问题.........阅读全文
posted @ 2008-01-18 23:54 早班火车 阅读(2586) | 评论 (20) 编辑
摘要:

在调试项目的时候在onmouseover时用到ajax的异步请求,
第一次加载页面鼠标移动到一个链接时触发onmouseover时成功。
当鼠标再移动到另一个链接触发onmouseover时显示还是原来的连接。
很奇怪,最后查资料才知道是IE缓存的事...

阅读全文
posted @ 2008-01-10 18:06 早班火车 阅读(381) | 评论 (7) 编辑
摘要:

今天在程序中借鉴了别人写的一个类,结果照着这个模式往上面套,
反而越套越复杂,最后连自己的都被缴在里面了,失败啊...
其实退一步开阔天空...阅读全文
posted @ 2008-01-09 22:13 早班火车 阅读(152) | 评论 (0) 编辑
摘要:

平时我们也许不会注意到它,就是在dreamweaver里选择xhtml页出现的第一句话
DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd阅读全文
posted @ 2008-01-04 09:44 早班火车 阅读(280) | 评论 (4) 编辑