摘要: 最近一直在学习搜索引擎的相关知识,在对于原始的HTML网页的处理是其中非常重要的一个环节,也就是所说的“去噪”,比如去掉相关的标签和不需要的JS代码等等,HTMLParser(http://htmlparser.sourceforge.net/)是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目,通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分: 文本信息抽取:提取网页中的文字。 链接提取:提取网页中的链接信息和锚文本。 资源提取:网页中图片、声音的处理。 链接检查:用于... 阅读全文
posted @ 2011-12-13 21:51 glose 阅读(2130) 评论(1) 推荐(0)