随笔分类 - 爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

摘要：/** * * @param s * @return 获网页标题 */ public String getTitle(final String s) { String regex; String title = ""; final List list = new ArrayList(... 阅读全文

posted @ 2014-09-04 15:15 GisClub 阅读(180) 评论(0) 推荐(0)

Java中正则表达式、模式匹配与信息抽取

摘要：引言记得几年前在做网页爬虫后的信息抽取时，针对网页源码中隐藏的要提取的信息，比如评论、用户信息等属性信息，直接利用HtmlParser得到。如此做倒是简单，不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串，正则表达式... 阅读全文

posted @ 2014-09-04 15:07 GisClub 阅读(6150) 评论(0) 推荐(0)

java正则表达式过滤html标签

摘要：import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * Title: HTML相关的正则表达式工具类 * * * Description: 包括过滤HTML标记，转换HTML... 阅读全文

posted @ 2014-09-04 09:47 GisClub 阅读(380) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告