摘要: ## 快速启动 提示,快速启动构成均在centos上完成,其中redis服务器采用的是root用户安装,因此为避免权限问题,建议使用root用户进行操作。 ### 1、下载软件包 ```shell https://github.com/istresearch/scrapy-cluster/archive/v1.2.1.zip https://github.com/istresearch/sc... 阅读全文
posted @ 2018-09-12 11:27 大道至简(老徐) 阅读(448) 评论(0) 推荐(0)
摘要: ## 分布式爬虫 ### 1、概览 该项目使用kafka和redis构建分布式爬虫集群。在多个spider实例间分发url的种子,这些请求通过redis进行协同。由于边界扩展或深度遍历的特点,任何其他抓取这些触发器的内容也将在集群中的所有工作程序之间分发。 系统的输入是一组Kafka主题,输出是一组Kafka主题。原始HTML和资源以交互方式,spider和日志输出方式进行爬网。 ### ... 阅读全文
posted @ 2018-09-10 19:15 大道至简(老徐) 阅读(1038) 评论(0) 推荐(0)
摘要: ## 爬虫 ### 1、设计 分布式爬虫系统允许位于多个不同主机上的爬虫程序并行爬取提交的爬虫作业,进而协调他们之间的爬取能力。爬取队列由redis管理,每个spider通过修改的调度程序从queue中拉取job。 页面被spider成功爬取后,就交给管线进行进一步处理。如果页面没有成功爬取,重试中间件重新提交页面给后端queue,以备由其他爬虫进行重试爬取。 link spider是分布... 阅读全文
posted @ 2018-09-10 19:15 大道至简(老徐) 阅读(682) 评论(0) 推荐(0)
摘要: ## 设计模式 ### 1、介绍 GOF是Gang of four(四人帮)的简称,是由四位java业界的专家编写的针对特定场景下问题的专家级解决方案。大概包含23中设计模式,设计模式本身与技术没有太大关系,主要是设计思想的运用,比较著名的像单例模式、工厂模式等。本文不打算给出所有设计模式的说明,主要给出实际应用较普遍的几种且比较经典的设计模式。 ### 2、单例模式 单例模式是最经典的设... 阅读全文
posted @ 2018-09-08 11:45 大道至简(老徐) 阅读(361) 评论(0) 推荐(0)
摘要: ## 多线程 ### 1、介绍 线程是同一进程内同时执行的多个代码段。宏观上并行,微观上串行,对于每块CPU来说,同一时刻,CPU只能执行同一条指令,但是对于多核系统来说,可以做到真正的并行。线程间可以共享内存,进程间不能共享内存。 ### 2、创建线程的方式 创建线程的方式有两种,可以通过Thread类直接创建,也可以通过实现Runnable接口,传递给Thread构造函数来创建。后者可... 阅读全文
posted @ 2018-09-05 20:54 大道至简(老徐) 阅读(281) 评论(0) 推荐(0)
摘要: ## 集合、数据结构、时间复杂度 ### 1、集合 #### 1.1 概述 java集合分为三种类型,List、set和Map。List有序,可以重复。Set无序不重复。Map是Key-value对类型,其中Key具有set的特点。 #### 1.2 List List java中有ArrayList和LinkedList两种实现。 - ArrayList 通过数组来实现,擅长读... 阅读全文
posted @ 2018-09-05 20:05 大道至简(老徐) 阅读(1371) 评论(0) 推荐(0)
摘要: ## 基本数据类型-位运算-字符集-流 ### 1、基本类型 | 类型 | 字节数 | 范围 | | :-----: | :--: | :------------------------: | | byte | 1 | -128 ~ 127 | | short | 2 | ... 阅读全文
posted @ 2018-09-05 20:04 大道至简(老徐) 阅读(277) 评论(0) 推荐(0)
摘要: ## HUE安装与使用 ### 1、介绍 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。例如put、get、执行MapReduce Job等等。 ### 2、安装 #### 2.1 安装hue依赖的第三方包 ```shel... 阅读全文
posted @ 2018-09-04 12:11 大道至简(老徐) 阅读(62030) 评论(2) 推荐(4)
摘要: ## 自定义日期时间函数### 1、介绍日期是在统计过程期间经常涉及的一个维度,但计算有偏复杂。 阅读全文
posted @ 2018-08-31 13:51 大道至简(老徐) 阅读(331) 评论(0) 推荐(0)
摘要: ## 博客园-博文自动发布工具### 1、介绍该工具内置自动将本地的markdown文件通过metaWebBlog协议上传到博客园(也可以是其他支持该协议的博客网站),并内置图床功能,省去编写博文时上传图片的麻烦。该工具配合typora markdown编写工具是最佳组合。实时预览与数学公式及希腊字母表的完美组合,是大数据学习过程间的学习利器。该工具截图如下:![](http://www.it18... 阅读全文
posted @ 2018-08-31 13:34 大道至简(老徐) 阅读(3774) 评论(3) 推荐(1)