01 2008 档案

一步一步教你抓数据——用.net精确提取网站数据的通用方法
摘要:通过.Net 的WebClient类,可以轻松完成网站数据抓取的任务。比方说我们有一个需求,要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页,得到页面的数据后进行精确提取,最后把我们想要的数据以一定的格式录入数据库以便分析。 实现思路: 1、WebClient类下载网页源码。 2、得到源码后,过滤掉不必要的特殊字符。 3、从过滤后的源码中获取指定的内容。 4、用正则表达式精确提取内容。 5、特殊条件处理(文章里有例举) 6、写入数据库。 阅读全文

posted @ 2008-01-26 11:06 早班火车 阅读(6735) 评论(24) 推荐(1)

也来为自己的博客加个花,兼AJAX跨域的一点疑问。
摘要:最近常在园子里转,看大家的blog,很多blog上都有一些插件和自己做的一些增加用户体验的效果,所以一时兴起,自己也DIY一把,做了一个和类似Justin Young blog上的效果,只不过是读取RSS,顺便也修炼一下自己的javascript,其中也遇到了头疼的跨域问题......... 阅读全文

posted @ 2008-01-18 23:54 早班火车 阅读(2980) 评论(20) 推荐(0)

关于IE缓存和AJAX的一点思考和疑问
摘要:在调试项目的时候在onmouseover时用到ajax的异步请求, 第一次加载页面鼠标移动到一个链接时触发onmouseover时成功。 当鼠标再移动到另一个链接触发onmouseover时显示还是原来的连接。 很奇怪,最后查资料才知道是IE缓存的事... 阅读全文

posted @ 2008-01-10 18:06 早班火车 阅读(615) 评论(7) 推荐(0)

退一步海阔天空:抛开思维定势
摘要:今天在程序中借鉴了别人写的一个类,结果照着这个模式往上面套, 反而越套越复杂,最后连自己的都被缴在里面了,失败啊... 其实退一步开阔天空... 阅读全文

posted @ 2008-01-09 22:13 早班火车 阅读(357) 评论(0) 推荐(0)

DOCTYPE:你可能不知道的
摘要:平时我们也许不会注意到它,就是在dreamweaver里选择xhtml页出现的第一句话 DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd 阅读全文

posted @ 2008-01-04 09:44 早班火车 阅读(717) 评论(4) 推荐(0)