2012-09-10 23:30 如何解决HtmlAgilityPack得到的InnerText中有残留的script、样式的问题 - 陈孝勇

2012-09-10 23:30 如何解决HtmlAgilityPack得到的InnerText中有残留的script、样式的问题

那么如何解决HtmlAgilityPack得到的InnerText中有残留的script、样式的问题呢，在google上搜索“HtmlAgilityPack script innerText”找到了stackoverflow上的这篇文章《C#: HtmlAgilityPack extract inner text》

代码如下：

原来这样简单呀，就是把所有的script、style标签从dom树中去掉（为了解决迭代器在工作时不能从集合中Remove元素的问题，使用ToArray()转换为数组再遍历）。

这样操作发现还是有残留的script：

仔细一看原来是带条件注释的script，因此用下面的方法去掉所有的注释节点：

代码如下：

foreach(varscript indoc.DocumentNode.Descendants("script").ToArray())
script.Remove();
foreach(varstyle indoc.DocumentNode.Descendants("style").ToArray())
style.Remove();

foreach(varcomment indoc.DocumentNode.SelectNodes("//comment()").ToArray())
comment.Remove();//新增的代码

stringinnerText = doc.DocumentNode.InnerText;

解释：HtmlAgilityPack是使用XPath语法，"//comment()"在XPath中表示“所有注释节点”，关于XPath的详细用法请参考XPath的资料。

其他可能有用的技术点：
1、获取网页title：doc.DocumentNode.SelectSingleNode("//title").InnerText;
解释：XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接：doc.DocumentNode.Descendants("a")

3、获取name为kw的input，也就是相当于getElementsByName()：
var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

解释："//input[@name='kw']"也是XPath的语法，表示：name属性等于kw的input标签。

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

nodename:选取此节点的所有子节点。
/:从根节点选取。
//:从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.:选取当前节点。
..:选取当前节点的父节点。

参考资料：

http://www.w3school.com.cn/xpath/xpath_syntax.asp

#c#

posted on 2013-11-02 11:35 陈孝勇阅读(1187) 评论(0) 收藏举报

刷新页面返回顶部