摘要: 呵呵,由于正则不熟,所以另谋出路——利用XML去解析html。要想将抓取到的数据(直接抓取到的是byte[]) 转为XML文档(即XMLDocument对象),有两个要点:一、判断编码(http头 charset 在某些网站上是不准确的)我利用的是 第三方的一开源项目去判断编码的,效果还不错:链接。二、将html转为XHTML我利用的是 : SgmlReaderDll.dll ,微软提供的,虽然不是100%的准确,但是足以满足 轻量级的商业需求 。核心代码如下: public class XHtmlTools { private const string RegBod... 阅读全文
posted @ 2013-07-08 09:52 把爱延续 阅读(9769) 评论(13) 推荐(2)