随笔档案「2014年6月13日」：HTML解析利器HtmlAgilityPack ... - 左正

2014年6月13日

摘要：在以前的项目中周公曾有解析HTML的情况，当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉，然后再用正则表达式找出需要提取的部分，可以说使用正则表达式来做是一个比较繁琐的过程，特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下。前一阵子周公还是通过这个办法将http:... 阅读全文

posted @ 2014-06-13 09:01 左正阅读(734) 评论(0) 推荐(0)

解析HTML文件 - 运用SgmlReader类来解析HTML文件

摘要：运用.NET Framework类来解析HTML文件、读取数据并不是最容易的。虽然你可以用.NET Framework中的许多类（如StreamReader）来逐行解析文件，但XmlReader提供的API并不是“取出即可用（out of the box）”的，因为HTML的格式不规范。你可以用正则... 阅读全文

posted @ 2014-06-13 09:00 左正阅读(1443) 评论(0) 推荐(0)

.Net解析html文档类库HtmlAgilityPack完整使用说明

摘要：在前几篇文章中（[搜房网房产数据采集程序demo--GeckoWebBrowser实例]）都有提到一个解析html的C#类库HtmlAgilityPack，今天终于有时间整理一下，并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库，主要用于在服务器端解... 阅读全文

posted @ 2014-06-13 08:55 左正阅读(26071) 评论(0) 推荐(3)

左正

公告