摘要: 在以前的项目中周公曾有解析HTML的情况,当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉,然后再用正则表达式找出需要提取的部分,可以说使用正则表达式来做是一个比较繁琐的过程,特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下。前一阵子周公还是通过这个办法将http:... 阅读全文
posted @ 2014-06-13 09:01 左正 阅读(726) 评论(0) 推荐(0)
摘要: 运用.NET Framework类来解析HTML文件、读取数据并不是最容易的。虽然你可以用.NET Framework中的许多类(如StreamReader)来逐行解析文件,但XmlReader提供的API并不是“取出即可用(out of the box)”的,因为HTML的格式不规范。你可以用正则... 阅读全文
posted @ 2014-06-13 09:00 左正 阅读(1432) 评论(0) 推荐(0)
摘要: 在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例])都有提到一个解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解... 阅读全文
posted @ 2014-06-13 08:55 左正 阅读(26049) 评论(0) 推荐(3)