使用HtmlAgilityPack解析html

HtmlAgilityPack是.net下使用xPath来解析html的类库,可以方便的做html的页面分析处理
项目地址: http://htmlagilitypack.codeplex.com/

使用方式
HtmlDocument html = new HtmlDocument();//创建htmldocument对象

html.LoadHtml(html);//加载html页面内容 html为string

HtmlNode htmlnode = html.DocumentNode; //获取当前页面的节点

HtmlNodeCollection nodea = htmlnode.SelectNodes(@"//*[@id='dzhong']/div/div[2]/ul/li[2]/a");//使用xpath来解析出需要的节点

foreach (HtmlNode node in nodea)//循环获取所需要的数据  
{
    string title = node.InnerText;
    string href = node.GetAttributeValue("href", null);
    ………………
}

这样的处理方式和.net里面的xml解析有点类似

  1. Xpath数据可以使用Chrome的开发者工具,选中指定的节点,反键会有Copy xPath的选项,可以快速的得到需要的xpath节点

  2. chrome插件,xpath help,安装后按Ctrl+Shift+x后能够方便调试html的xpath

posted @ 2014-03-19 14:55  张巍的博客  阅读(347)  评论(0编辑  收藏  举报