摘要:ArrayBlockingQueue和LinkedBlockingQueue的区别,得出结论如下:1. 队列中锁的实现不同 ArrayBlockingQueue实现的队列中的锁是没有分离的,即生产和消费用的是同一个锁; LinkedBlockingQueue实现的队列中...
阅读全文
随笔分类 - crawl
摘要:现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取。其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行 分析筛选的过程。比如,有的比较购物网站,会同时去抓取不同购物网站的数据并将其保存在数据库中。一般,这些网页的抓取都需要对抓取回来的HTML进行解 析。.NET提...
阅读全文
摘要:对付"反盗链"某些站点有所谓的反盗链设置,其实说穿了很简单,就是检查你发送请求的header里面,referer站点是不是他自己,所以我们只需要像把headers的referer改成该网站即可,以cnbeta为例:#...headers = { 'Referer':'http://www.cn...
阅读全文
摘要:Nutch 开发语言:Java http://lucene.apache.org/nutch/ 简介: Apache的子项目之一,属于Lucene项目下的子项目。 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Ec
阅读全文
摘要:基于FP-Tree的关联规则FP-Growth推荐算法Java实现package edu.test.ch8;import java.util.ArrayList;import java.util.List;public class Item implements Comparable { pr...
阅读全文
摘要:混合模式结合二、三两大步,通过模拟点击快速拿到cookie,虽然效率低,但可以减少数据包分析的时间以及解决搞不定ajax登陆验证的烦恼,然后继续用urllib2拼接cookie继续快速获取数据。分下面两步:a. 从selenium中拿到cookieb. 添加cookie给urllib2使用方法1:使...
阅读全文
摘要:登陆之模拟点击工具:python/java + selenium + firefox/chrome/phantomjs(1)windows开发环境搭建默认已经安装好了firefox安装pippip是一个python的软件包管理工具,用于自动下载并安装、更新python包,python3之后的某些版本...
阅读全文
摘要:登陆之数据包分析工具: python-urllib2 | firefox+firebug或者chrome,用浏览器打开登陆页面之后,按F12键会默认打开开发者工具或者启动firebug,点击network监听数据包,下面以itune的登陆举一个例子。1. 在浏览器中输入itunes的登陆地址:htt...
阅读全文
摘要:JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector 致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。
阅读全文
摘要:主要是配置larbin.conf文件和options.h注意:更改前者可以直接运行,如果更改了第二个就要重新make了!!! 如果你英文够好的话就可以直接看了,都有详细的解释。不行的话就看翻译吧http://blog.chinaunix.net/uid-26548237-id-3391533.htm
阅读全文
浙公网安备 33010602011771号