Welcome to EliteQing's Blog

摘要: 一、网络爬虫的一般作法 一、网络爬虫的一般作法 1.1 基于Socket通信编写爬虫1.2 基于HttpURLConnection类编写爬虫1.3 基于apache的HttpClient包编写爬虫1.4 基于phantomjs之类的无头(无界面)浏览器1.5 基于Selenium之类的有头(有界面) 阅读全文
posted @ 2016-06-09 18:07 EliteQing 阅读(893) 评论(0) 推荐(0) 编辑
摘要: 一、java开发 一、java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好。(2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系统开发,如ssh、springMvc、springside、nutz、,面向各自不同 阅读全文
posted @ 2016-06-09 17:33 EliteQing 阅读(2484) 评论(0) 推荐(0) 编辑
摘要: 代码也可以从我的开源项目HtmlExtractor中获取。 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网站:http://toutiao.com/ 我们可以使用Selenium来搞定这件事情。Seleni 阅读全文
posted @ 2016-06-04 17:51 EliteQing 阅读(2575) 评论(0) 推荐(1) 编辑
该文被密码保护。 阅读全文
posted @ 2016-06-04 17:37 EliteQing 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 以下仅仅是自己一些粗浅认识、欢迎补充指正、欢迎进群交流! 掌握一半便能够熟练的开发爬虫玩了。自己正在努力中... 一、技能列表 1、掌握java、尤其编程网络部分;李刚的java基础至少看了三遍以上; 2、熟悉html、js、 ajax、firedebug3、网页去重、找到网站特点4、分布式5、多线 阅读全文
posted @ 2016-06-04 17:17 EliteQing 阅读(1441) 评论(0) 推荐(0) 编辑
摘要: 参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是 阅读全文
posted @ 2016-06-04 16:46 EliteQing 阅读(2516) 评论(0) 推荐(0) 编辑
摘要: 参考地址:http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文
posted @ 2016-06-04 16:06 EliteQing 阅读(678) 评论(0) 推荐(0) 编辑
摘要: 模拟登陆部分实现: 参考地址 http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文
posted @ 2016-06-04 15:59 EliteQing 阅读(2106) 评论(0) 推荐(0) 编辑
摘要: 反爬虫策略,表面上看似乎跟WEB系统优化没有关系,经过分析,发现该策略是可以归到WEB性能优化的系列之中。 通过分析apache日志发现,某系统40%的带宽和服务器资源都消耗在爬虫上,如果除去10%-15%搜索引擎的爬虫,做好反爬虫策略,能节省20%-25%的资源,其实是变向优化了web系统。 一、 阅读全文
posted @ 2016-06-04 15:50 EliteQing 阅读(4891) 评论(1) 推荐(0) 编辑
摘要: 遇到过很多人介绍自己时,都习惯说自己是某某公司的某某某,如果是没 公司,没职业的人呢?我遇到一些是自称为某某爸爸,某某妈妈,当然社会上还有一 些自称老爸是何人的介绍方式,这离我有点远,就不谈论了。据说最牛的名片是只有名字,什么公司,地址,联系电话什么的一概没有。IT行业的人,Bill Gates大概 阅读全文
posted @ 2016-06-02 13:15 EliteQing 阅读(276) 评论(0) 推荐(0) 编辑