2008 年 1月随笔档案 - 早班火车

一步一步教你抓数据——用.net精确提取网站数据的通用方法

摘要：

通过.Net 的WebClient类，可以轻松完成网站数据抓取的任务。比方说我们有一个需求，要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页，得到页面的数据后进行精确提取，最后把我们想要的数据以一定的格式录入数据库以便分析。实现思路： 1、WebClient类下载网页源码。 2、得到源码后，过滤掉不必要的特殊字符。 3、从过滤后的源码中获取指定的内容。 4、用正则表达式精确提取内容。 5、特殊条件处理（文章里有例举） 6、写入数据库。阅读全文

posted @ 2008-01-26 11:06 早班火车阅读(6735) 评论(24) 推荐(1)

也来为自己的博客加个花，兼AJAX跨域的一点疑问。

摘要：

最近常在园子里转，看大家的blog，很多blog上都有一些插件和自己做的一些增加用户体验的效果，所以一时兴起，自己也DIY一把，做了一个和类似Justin Young blog上的效果，只不过是读取RSS，顺便也修炼一下自己的javascript，其中也遇到了头疼的跨域问题......... 阅读全文

posted @ 2008-01-18 23:54 早班火车阅读(2980) 评论(20) 推荐(0)

关于IE缓存和AJAX的一点思考和疑问

摘要：

在调试项目的时候在onmouseover时用到ajax的异步请求，第一次加载页面鼠标移动到一个链接时触发onmouseover时成功。当鼠标再移动到另一个链接触发onmouseover时显示还是原来的连接。很奇怪，最后查资料才知道是IE缓存的事... 阅读全文

posted @ 2008-01-10 18:06 早班火车阅读(615) 评论(7) 推荐(0)

退一步海阔天空：抛开思维定势

摘要：

今天在程序中借鉴了别人写的一个类，结果照着这个模式往上面套，反而越套越复杂，最后连自己的都被缴在里面了，失败啊... 其实退一步开阔天空... 阅读全文

posted @ 2008-01-09 22:13 早班火车阅读(357) 评论(0) 推荐(0)

DOCTYPE:你可能不知道的

摘要：

平时我们也许不会注意到它，就是在dreamweaver里选择xhtml页出现的第一句话 DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd 阅读全文

posted @ 2008-01-04 09:44 早班火车阅读(717) 评论(4) 推荐(0)

早班的天空~

人生之爱，幽谷之兰，得之我幸，失之无悔。生活之水，东涧之溪，淡而有香，品而有味。

01 2008 档案

一步一步教你抓数据——用.net精确提取网站数据的通用方法

也来为自己的博客加个花，兼AJAX跨域的一点疑问。

关于IE缓存和AJAX的一点思考和疑问

退一步海阔天空：抛开思维定势

DOCTYPE:你可能不知道的

公告