Welcome to EliteQing's Blog

06 2016 档案

该文被密码保护。
posted @ 2016-06-24 02:12 EliteQing 阅读(3) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2016-06-24 02:09 EliteQing 阅读(3) 评论(0) 推荐(0) 编辑
摘要:Example 1 Project: thucydides File: PhantomJSCapabilityEnhancer.java View source code Vote up 6 votes public void enhanceCapabilities(DesiredCapabilit 阅读全文
posted @ 2016-06-24 02:04 EliteQing 阅读(687) 评论(0) 推荐(0) 编辑
摘要:ssh -T git@github.com //测试连接 git config --global user.name "youname" git config --global user.email "you email address" git init //把这个目录变成Git可以管理的仓库 g 阅读全文
posted @ 2016-06-19 16:33 EliteQing 阅读(280) 评论(0) 推荐(0) 编辑
摘要:程序员要站在巨人的肩膀上,C++拥有丰富的开源库,这里包括:标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。 标准库 C++ Standard Library:是一系列类和函数的集合,使用核心语言编写,也是C++ISO自身标准的一部分。 Standard Templa 阅读全文
posted @ 2016-06-17 02:29 EliteQing 阅读(20193) 评论(0) 推荐(3) 编辑
摘要:今天用maven编写Selenium测试程序时,调用 HtmlUnitDriver driver = new HtmlUnitDriver(true); 反法时报错如下: java.lang.NoClassDefFoundError: org/w3c/dom/ElementTraversal at 阅读全文
posted @ 2016-06-14 12:16 EliteQing 阅读(926) 评论(0) 推荐(0) 编辑
摘要:一、网络爬虫的一般作法 一、网络爬虫的一般作法 1.1 基于Socket通信编写爬虫1.2 基于HttpURLConnection类编写爬虫1.3 基于apache的HttpClient包编写爬虫1.4 基于phantomjs之类的无头(无界面)浏览器1.5 基于Selenium之类的有头(有界面) 阅读全文
posted @ 2016-06-09 18:07 EliteQing 阅读(893) 评论(0) 推荐(0) 编辑
摘要:一、java开发 一、java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好。(2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系统开发,如ssh、springMvc、springside、nutz、,面向各自不同 阅读全文
posted @ 2016-06-09 17:33 EliteQing 阅读(2483) 评论(0) 推荐(0) 编辑
摘要:代码也可以从我的开源项目HtmlExtractor中获取。 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网站:http://toutiao.com/ 我们可以使用Selenium来搞定这件事情。Seleni 阅读全文
posted @ 2016-06-04 17:51 EliteQing 阅读(2575) 评论(0) 推荐(1) 编辑
该文被密码保护。
posted @ 2016-06-04 17:37 EliteQing 阅读(2) 评论(0) 推荐(0) 编辑
摘要:以下仅仅是自己一些粗浅认识、欢迎补充指正、欢迎进群交流! 掌握一半便能够熟练的开发爬虫玩了。自己正在努力中... 一、技能列表 1、掌握java、尤其编程网络部分;李刚的java基础至少看了三遍以上; 2、熟悉html、js、 ajax、firedebug3、网页去重、找到网站特点4、分布式5、多线 阅读全文
posted @ 2016-06-04 17:17 EliteQing 阅读(1441) 评论(0) 推荐(0) 编辑
摘要:参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是 阅读全文
posted @ 2016-06-04 16:46 EliteQing 阅读(2515) 评论(0) 推荐(0) 编辑
摘要:参考地址:http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文
posted @ 2016-06-04 16:06 EliteQing 阅读(678) 评论(0) 推荐(0) 编辑
摘要:模拟登陆部分实现: 参考地址 http://www.cnblogs.com/zhengbing/p/3459249.html 阅读全文
posted @ 2016-06-04 15:59 EliteQing 阅读(2104) 评论(0) 推荐(0) 编辑
摘要:反爬虫策略,表面上看似乎跟WEB系统优化没有关系,经过分析,发现该策略是可以归到WEB性能优化的系列之中。 通过分析apache日志发现,某系统40%的带宽和服务器资源都消耗在爬虫上,如果除去10%-15%搜索引擎的爬虫,做好反爬虫策略,能节省20%-25%的资源,其实是变向优化了web系统。 一、 阅读全文
posted @ 2016-06-04 15:50 EliteQing 阅读(4891) 评论(1) 推荐(0) 编辑
摘要:遇到过很多人介绍自己时,都习惯说自己是某某公司的某某某,如果是没 公司,没职业的人呢?我遇到一些是自称为某某爸爸,某某妈妈,当然社会上还有一 些自称老爸是何人的介绍方式,这离我有点远,就不谈论了。据说最牛的名片是只有名字,什么公司,地址,联系电话什么的一概没有。IT行业的人,Bill Gates大概 阅读全文
posted @ 2016-06-02 13:15 EliteQing 阅读(276) 评论(0) 推荐(0) 编辑