一步一步教你抓数据——用.net精确提取网站数据的通用方法
摘要:
通过.Net 的WebClient类,可以轻松完成网站数据抓取的任务。比方说我们有一个需求,要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页,得到页面的数据后进行精确提取,最后把我们想要的数据以一定的格式录入数据库以便分析。
实现思路:
1、WebClient类下载网页源码。
2、得到源码后,过滤掉不必要的特殊字符。
3、从过滤后的源码中获取指定的内容。
4、用正则表达式精确提取内容。
5、特殊条件处理(文章里有例举)
6、写入数据库。
阅读全文
通过.Net 的WebClient类,可以轻松完成网站数据抓取的任务。比方说我们有一个需求,要提取某某网站的列表页和详情页的数据进行分析。这时需要模拟浏览器浏览网页,得到页面的数据后进行精确提取,最后把我们想要的数据以一定的格式录入数据库以便分析。
实现思路:
1、WebClient类下载网页源码。
2、得到源码后,过滤掉不必要的特殊字符。
3、从过滤后的源码中获取指定的内容。
4、用正则表达式精确提取内容。
5、特殊条件处理(文章里有例举)
6、写入数据库。
阅读全文
posted @ 2008-01-26 11:06


最近常在园子里转,看大家的blog,很多blog上都有一些插件和自己做的一些增加用户体验的效果,所以一时兴起,自己也DIY一把,做了一个和类似Justin Young blog上的效果,只不过是读取RSS,顺便也修炼一下自己的javascript,其中也遇到了头疼的跨域问题.........
在调试项目的时候在onmouseover时用到ajax的异步请求,
第一次加载页面鼠标移动到一个链接时触发onmouseover时成功。
当鼠标再移动到另一个链接触发onmouseover时显示还是原来的连接。
很奇怪,最后查资料才知道是IE缓存的事...
平时我们也许不会注意到它,就是在dreamweaver里选择xhtml页出现的第一句话
DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd
浙公网安备 33010602011771号