摘要: 师兄部署了新的虚拟机,新学期大搞起来!之前由于爬虫代码不稳定,所以一直都是直接用Eclipse运行,然后遇到问题就修改的。但是这个比较麻烦,而且Eclipse本身就很占内存啊,摔!所以今天下午就把之前的代码清减了一下,对很多挫挫的System.out.println替换了log4j,路径啊数据库连接呀用配置文件处理了,最后打成可执行的Jar,这样在新的虚机上就可以大展拳脚咯^_^YBiu~废话说完,进入正题,将Java工程打包成可执行的Jar有各种方法,网上很多也不举例了,什么配置MANIFET文件啊之类的。其实有一个最简单可行的方法,就是直接用Eclipse导出Runnable JAR fi 阅读全文
posted @ 2013-02-27 21:00 YUKI小糖 阅读(20413) 评论(4) 推荐(1) 编辑
摘要: 上个学期做了很久的新浪爬虫,修修改改一直没时间做个整理,趁着开学前,重新整理了下思路和代码结构,做一个总结吧。本来是雄心壮志的想实现一个Java版本的、比较通用的爬虫框架的,但是整理后又发现此法真的是非常的简单粗暴,跟scrapy等没得比,其实没得比都是正常的啦,我自己本来就水,而且没有深入的去进行实现设计,所以,姑且总结一下当前的能力吧。实现语言:Java模拟HTTP请求:HttpClient 4.0目标页面结构分析、HTTP请求头信息分析:Firefox + firebug / Chrome(F12 开发者模式)HTML解析:Jsoup基本思路网络爬虫的基本思路是:爬虫线程从待抓取URL队 阅读全文
posted @ 2013-02-27 10:23 YUKI小糖 阅读(16521) 评论(27) 推荐(4) 编辑