yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2016年1月4日 #

摘要: 在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓... 阅读全文
posted @ 2016-01-04 18:40 xxxxxxxx1x2xxxxxxx 阅读(2436) 评论(0) 推荐(0)

摘要: PhantomJS是一个基于WebKit的服务器端JavaScript API,它基于 BSD开源协议发布。PhantomJS无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如DOM 处理、JavaScript、CSS选择器、JSON、Canvas和可缩放矢量图形SVG。Phant... 阅读全文
posted @ 2016-01-04 18:35 xxxxxxxx1x2xxxxxxx 阅读(305) 评论(0) 推荐(0)

摘要: SynchronousQueue、LinkedBlockingQueue、ArrayBlockingQueue性能测试 JDK6对SynchronousQueue做了性能优化,避免对竞争资源加锁,所以想试试到底平时是选择SynchronousQueue还是其他BlockingQueue。 对于容... 阅读全文
posted @ 2016-01-04 17:30 xxxxxxxx1x2xxxxxxx 阅读(213) 评论(0) 推荐(0)

摘要: JDK源码分析—— ArrayBlockingQueue 和 LinkedBlockingQueue目的:本文通过分析JDK源码来对比ArrayBlockingQueue 和LinkedBlockingQueue,以便日后灵活使用。1. 在Java的Concurrent包中,添加了阻塞队列Block... 阅读全文
posted @ 2016-01-04 17:22 xxxxxxxx1x2xxxxxxx 阅读(540) 评论(0) 推荐(0)

摘要: ArrayBlockingQueue和LinkedBlockingQueue的区别,得出结论如下:1. 队列中锁的实现不同 ArrayBlockingQueue实现的队列中的锁是没有分离的,即生产和消费用的是同一个锁; LinkedBlockingQueue实现的队列中... 阅读全文
posted @ 2016-01-04 17:21 xxxxxxxx1x2xxxxxxx 阅读(372) 评论(0) 推荐(0)

摘要: 现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取。其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行 分析筛选的过程。比如,有的比较购物网站,会同时去抓取不同购物网站的数据并将其保存在数据库中。一般,这些网页的抓取都需要对抓取回来的HTML进行解 析。.NET提... 阅读全文
posted @ 2016-01-04 13:30 xxxxxxxx1x2xxxxxxx 阅读(514) 评论(0) 推荐(0)

摘要: 现在开发APP的方式变化,不在是传统的APP开发了,有很多的APP慢慢的转向混合模式的开发,使用WebView是传统开发模式转向混合模式的桥梁工具,结合了很多的Web前端开发界面,使得开发的速度加快,下面介绍Android中WebView的基础使用。 在开发过程中应该注意几点: 1.Android... 阅读全文
posted @ 2016-01-04 12:35 xxxxxxxx1x2xxxxxxx 阅读(236) 评论(0) 推荐(0)

摘要: 对付"反盗链"某些站点有所谓的反盗链设置,其实说穿了很简单,就是检查你发送请求的header里面,referer站点是不是他自己,所以我们只需要像把headers的referer改成该网站即可,以cnbeta为例:#...headers = { 'Referer':'http://www.cn... 阅读全文
posted @ 2016-01-04 11:35 xxxxxxxx1x2xxxxxxx 阅读(142) 评论(0) 推荐(0)

摘要: Nutch 开发语言:Java http://lucene.apache.org/nutch/ 简介: Apache的子项目之一,属于Lucene项目下的子项目。 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Ec 阅读全文
posted @ 2016-01-04 11:22 xxxxxxxx1x2xxxxxxx 阅读(288) 评论(0) 推荐(0)

摘要: 基于FP-Tree的关联规则FP-Growth推荐算法Java实现package edu.test.ch8;import java.util.ArrayList;import java.util.List;public class Item implements Comparable { pr... 阅读全文
posted @ 2016-01-04 11:02 xxxxxxxx1x2xxxxxxx 阅读(486) 评论(0) 推荐(0)

摘要: 混合模式结合二、三两大步,通过模拟点击快速拿到cookie,虽然效率低,但可以减少数据包分析的时间以及解决搞不定ajax登陆验证的烦恼,然后继续用urllib2拼接cookie继续快速获取数据。分下面两步:a. 从selenium中拿到cookieb. 添加cookie给urllib2使用方法1:使... 阅读全文
posted @ 2016-01-04 11:00 xxxxxxxx1x2xxxxxxx 阅读(245) 评论(0) 推荐(0)

摘要: 登陆之模拟点击工具:python/java + selenium + firefox/chrome/phantomjs(1)windows开发环境搭建默认已经安装好了firefox安装pippip是一个python的软件包管理工具,用于自动下载并安装、更新python包,python3之后的某些版本... 阅读全文
posted @ 2016-01-04 10:57 xxxxxxxx1x2xxxxxxx 阅读(779) 评论(0) 推荐(0)

摘要: 登陆之数据包分析工具: python-urllib2 | firefox+firebug或者chrome,用浏览器打开登陆页面之后,按F12键会默认打开开发者工具或者启动firebug,点击network监听数据包,下面以itune的登陆举一个例子。1. 在浏览器中输入itunes的登陆地址:htt... 阅读全文
posted @ 2016-01-04 10:57 xxxxxxxx1x2xxxxxxx 阅读(654) 评论(0) 推荐(0)