随笔档案「2013年7月8日」：C# 解析html —— 将html转为XHTML，然后利用Xml解析 ... - 把爱延续

2013年7月8日

摘要：呵呵，由于正则不熟，所以另谋出路——利用XML去解析html。要想将抓取到的数据（直接抓取到的是byte[]）转为XML文档（即XMLDocument对象），有两个要点：一、判断编码（http头 charset 在某些网站上是不准确的）我利用的是第三方的一开源项目去判断编码的，效果还不错：链接。二、将html转为XHTML我利用的是： SgmlReaderDll.dll ，微软提供的，虽然不是100%的准确，但是足以满足轻量级的商业需求。核心代码如下： public class XHtmlTools { private const string RegBod... 阅读全文

posted @ 2013-07-08 09:52 把爱延续阅读(9778) 评论(13) 推荐(2)

公告