摘要:
在以前的项目中周公曾有解析HTML的情况,当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉,然后再用正则表达式找出需要提取的部分,可以说使用正则表达式来做是一个比较繁琐的过程,特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下。前一阵子周公还是通过这个办法将http:... 阅读全文
posted @ 2014-06-13 09:01
左正
阅读(726)
评论(0)
推荐(0)
摘要:
运用.NET Framework类来解析HTML文件、读取数据并不是最容易的。虽然你可以用.NET Framework中的许多类(如StreamReader)来逐行解析文件,但XmlReader提供的API并不是“取出即可用(out of the box)”的,因为HTML的格式不规范。你可以用正则... 阅读全文
posted @ 2014-06-13 09:00
左正
阅读(1432)
评论(0)
推荐(0)
摘要:
在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例])都有提到一个解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解... 阅读全文
posted @ 2014-06-13 08:55
左正
阅读(26049)
评论(0)
推荐(3)

浙公网安备 33010602011771号