摘要: 爬虫解析一般使用 正则或者给予样式的 jquery语法选择器正则是根本,类比jsoup基于dom,底层也有部分是基于正则实现的,linux操作系统文本处理也是借助强大的正则体现的 。关于正则 请参考 《正则指引》书 。正则基本语法 :http://cphmvp.diandian.com/post/2012-07-31/40032077081搜索爬虫常用正则:http://cphmvp.diandian.com/post/2012-11-10/40041792417正则的调试工具有很多,推荐个 RegexBuddy 。 这里就不多做介绍了或者后续补充 。今天着重讲下 jsoup,近期做了一千多个 阅读全文
posted @ 2014-03-17 22:12 cphmvp 阅读(313) 评论(0) 推荐(0) 编辑
摘要: DNS解析:即由域名 经过dns解析,跳转到真正服务器的地址,这个重复解析的耗时占请求很大比例。 在设计爬虫时比较细粒度的控制下,需要考虑dns解析。 jdk从1.5往后对dns缓存有默认设置,详见jdk源码,不过有部分细节还是需要自己去处理的。JAVA本身对DNS的缓存时间是多久?对于爬虫DNS解析耗时的疑问,第一反应Google之,大致有两种说法:第1种:默认情况下networkaddress.cache.ttl=-1,代表永久缓存(配置文件路径: JAVA_HOME/jre/lib/security/java.security),就是在应用启动之后第一次DNS 解析成功的结果会一直cac 阅读全文
posted @ 2014-03-17 17:46 cphmvp 阅读(789) 评论(0) 推荐(0) 编辑
爬虫在线测试小工具: http://tool.haoshuju.cn/