2010 年 10月 24 日随笔档案 - 独孤雁

【转】HtmlParser初探--使用Nodefilter和Visitor进行网页分析

摘要：最近在做html页面转化成jsf页面的工作，尝试过使用正则表达式、dom4j等方法，都没有取得很好的结果。（html-->jsf会另写一篇文章进行讨论）现在在使用htmlparser对html进行解析，对于html页面的解析htmlparser是一个功能比较强大的工具（相关下载：http://sourceforge.net/projects/htmlparser/）。以下是经常使用的对页面解... 阅读全文

posted @ 2010-10-24 16:12 独孤雁阅读(430) 评论(0) 推荐(0)

【转】HTMLParser使用详解（4）- 通过Visitor访问内容

摘要： HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。下面介绍使用Visitor访问内容的方法。4.1 NodeVisitor从简单方面的理解，Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点，对于符合条件的节点进行处理。实际的结果异曲同工，两种不... 阅读全文

posted @ 2010-10-24 14:15 独孤雁阅读(275) 评论(0) 推荐(0)

【转】HTMLParser使用详解（1）- 初始化Parser

摘要：在研究搜索引擎的开发中，对于HTML网页的处理是核心的一个环节。网上有很多开源的代码，对于Java来说，HTMLParser是比较著名并且得到广泛应用的一个。HTMLParser的主页是http://htmlparser.sourceforge.net/，最后的更新是2006年9月的1.6版。不过没关系，HTML的内容已经很久没有大的变化了，HTMLParser处理起来基本没有任何问题。HTMLP... 阅读全文

posted @ 2010-10-24 14:14 独孤雁阅读(364) 评论(0) 推荐(0)

【转】HTMLParser使用详解（2）- Node内容

摘要： HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。请看Node的定义：public interface Node extends Cloneable;Node中包含的方法有几类：对于树型结构进行遍历的函数，这些函数最容易理解：Node getParent ()：取得父节点NodeList getChildren ()：取得子节点的列表Node getFirst... 阅读全文

posted @ 2010-10-24 14:13 独孤雁阅读(299) 评论(0) 推荐(0)

【转】HTMLParser使用详解（3）- 通过Filter访问内容

摘要： HTMLParser使用详解（3）- 通过Filter访问内容HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filte... 阅读全文

posted @ 2010-10-24 14:12 独孤雁阅读(315) 评论(0) 推荐(0)

独孤雁

公告

【转】HtmlParser初探--使用Nodefilter和Visitor进行网页分析

【转】HTMLParser使用详解（4）- 通过Visitor访问内容

【转】HTMLParser使用详解（1）- 初始化Parser

【转】HTMLParser使用详解（2）- Node内容

【转】HTMLParser使用详解（3）- 通过Filter访问内容