c# 爬虫-HtmlAgilityPack

在使用爬虫获取自己想要的信息，通常是需要解析下html

最常用的方式是用时正则表达式，这里要介绍的是HtmlAgilityPack ，可以在nuget中引用

1 HtmlDocument doc = new HtmlDocument();
2 doc.LoadHtml("");//html 文本
3 HtmlNodeCollection hrefList = doc.DocumentNode.SelectNodes("")//这里是元素的xpath  获取的是集合
4 
5 HtmlNode node=doc.DocumentNode.SelectSingleNode("")//获取的是 单个元素

View Code

获取元素的内容

node.InnerText.Trim()

node.InnerHtml

node.OuterHtml

元素xpath的获取

posted @ 2018-04-06 15:10 LvTwocold 阅读(137) 评论(0) 收藏举报

刷新页面返回顶部

dreamly

c# 爬虫-HtmlAgilityPack

公告