爬虫技术 -- 基础学习（四）HtmlParser基本认识

　　利用爬虫技术获取网页源代码后，针对网页抽取出它的特定文本内容，利用正则表达式和抽取工具，能够更好地抽取这些内容。

　　下面介绍一种抽取工具 -- HtmlParser

　　HtmlParser是一个用来解析HTML文件的java包，主要用于转换、抽取两个方面。

（1）文本抽取。作为一些垂直搜索引擎的检索内容放入数据库中。

（2）链接抽取。

（3）资源抽取。可以搜索到图像和声音等资源。

（4）链接检查。保证链接是有用的。

（5）站点检查。可以查看页面不同版本之间的差异（在爬虫过程中，防止重复抓取页面）。

（1）URL重写。可以修正页面中的错误链接。

（2）广告消除。清除页面中的广告内容和指向广告的链接。

（3）将HTML页面转换成XML页面。

（4）HTML页面清理。

posted @ 2013-12-11 14:31 lmei 阅读(1415) 评论(2) 收藏举报

刷新页面返回顶部