梦想起航

人生没有等出来的美丽,只有走出来的辉煌!~

导航

2012年10月30日 #

利用Heritrix+htmlparser爬网页并进行解析

摘要: 实验室的一个关于做搜索引擎的项目文本那块需要大量的文本数据集,老师让俺在爬一些项目相关的网站,获得文本集。本人菜鸟一个,真是一个头痛的任务,从没有接触网络爬虫这东东,一听感觉很高深,其实了解之后也就那样,呵呵。。。开始在开源上搜索爬虫软件,于是选择了Herritrix,下载了heritrix1.14.4,网上各种搜索,终于将其配置成功,然后然后爬的不知道是一些什么东东,乱七八糟,又进行过滤,爬得了一些html文档,可是可是老师要的是文本文档啊,txt啊,于是于是又在网上各种搜索,想将html解析成txt文档,选择了htmlparser,下载了其源码,在网上又找了一段解析代码,结合起来可以解析了 阅读全文

posted @ 2012-10-30 11:11 梦想hust起航 阅读(1290) 评论(1) 推荐(1)