上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 26 下一页
摘要: SELECT a.name ,IFNULL(b.name,"BOSS") FROM boss a LEFT JOIN boss b ON a.MANAGER_ID = b.ID员工和经理对照 sql 阅读全文
posted @ 2014-03-24 15:44 cphmvp 阅读(108) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2014-03-22 18:07 cphmvp 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 今天看了一天的apache 的httpasyncclient ,为了和默认的httpclient做个对比,httpcore是核心轻量级的提供传统阻塞IO 和 java NIO两种方式,httpclient基于httpcore做的全功能封装能应付绝大部分爬虫需求,HttpAsyncClient 是基于httpcore NIO 和httpclient基础上做的进一步封装,主要利用异步回调方式,适用于高性能需求的场景下 ,官方文档 如是说:Asynch HttpClientis a HTTP/1.1 compliant HTTP agent implementation based on HttpC 阅读全文
posted @ 2014-03-18 16:36 cphmvp 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 爬虫解析一般使用 正则或者给予样式的 jquery语法选择器正则是根本,类比jsoup基于dom,底层也有部分是基于正则实现的,linux操作系统文本处理也是借助强大的正则体现的 。关于正则 请参考 《正则指引》书 。正则基本语法 :http://cphmvp.diandian.com/post/2012-07-31/40032077081搜索爬虫常用正则:http://cphmvp.diandian.com/post/2012-11-10/40041792417正则的调试工具有很多,推荐个 RegexBuddy 。 这里就不多做介绍了或者后续补充 。今天着重讲下 jsoup,近期做了一千多个 阅读全文
posted @ 2014-03-17 22:12 cphmvp 阅读(313) 评论(0) 推荐(0) 编辑
摘要: DNS解析:即由域名 经过dns解析,跳转到真正服务器的地址,这个重复解析的耗时占请求很大比例。 在设计爬虫时比较细粒度的控制下,需要考虑dns解析。 jdk从1.5往后对dns缓存有默认设置,详见jdk源码,不过有部分细节还是需要自己去处理的。JAVA本身对DNS的缓存时间是多久?对于爬虫DNS解析耗时的疑问,第一反应Google之,大致有两种说法:第1种:默认情况下networkaddress.cache.ttl=-1,代表永久缓存(配置文件路径: JAVA_HOME/jre/lib/security/java.security),就是在应用启动之后第一次DNS 解析成功的结果会一直cac 阅读全文
posted @ 2014-03-17 17:46 cphmvp 阅读(787) 评论(0) 推荐(0) 编辑
摘要: 定时器经常在项目中用到,定制执行某些操作,比如爬虫就需要定时加载种子等操作,之前一直用spring的定制器近期做项目发现,jdk有很简单的提供 代码如下 1 /* 2 * Copyright (c) 2014-2024 . All Rights Reserved. 3 * 4 * This software is the confidential and proprietary information of 5 * LoongTao. You shall not disclose such Confidential Information 6 * a... 阅读全文
posted @ 2014-03-14 14:29 cphmvp 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 最近在使用string类中的replaceAll函数时碰到这个错误,由于string长度比较长,文本文档9M多,可以增加jvm的内存大小解决。下面是一篇对OutOfMorryError错误的一些处理方法,源于:http://www.blogjava.net/amigoxie/archive/2007/02/11/99330.htmljava.lang.OutOfMemoryError这个错误我相信大部分开发人员都有遇到过,产生该错误的原因大都出于以下原因:JVM内存过小、程序不严密,产生了过多的垃圾。在一年多的工作过程中,遇到该问题的印象最深有两次。 一次是用hibernate查询数据时,一次 阅读全文
posted @ 2014-03-13 11:39 cphmvp 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: 我才用的是eclipse自带的export功能,暂时没把maven的打包插件研究清楚导出jar包后,需要用解压缩打开,把配置文件copy到压缩包的内的顶级目录保存写 bat 脚本echo 定向媒体源[报媒加载] v1.0 @author cphmvpjava -jar dmscrawler.jar 1 truepause;linux下的话jar包copy过去,运行的命令行很简答java -jar 给定的jar包 [如果运行的jar包需要参数,直接后面依次给出就好]eg:java -jar Hello.jar 1 true 阅读全文
posted @ 2014-03-12 17:23 cphmvp 阅读(247) 评论(0) 推荐(0) 编辑
摘要: package com.cph.crawler.core.utils;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;/** * * @ClassName: RegexUtils * @Description: 正则帮助类 * @author cphmvp . 阅读全文
posted @ 2014-03-08 22:32 cphmvp 阅读(593) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2014-03-08 22:30 cphmvp 阅读(12) 评论(0) 推荐(0) 编辑
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 26 下一页
爬虫在线测试小工具: http://tool.haoshuju.cn/