摘要: 想要搭建自己的Hadoop和spark集群,尤其是在生产环境中,下载官网提供的安装包远远不够的,必须要自己源码编译spark才行。 环境准备: 1,Maven环境搭建,版本Apache Maven 3.3.9,jar包管理工具; 2,JDK环境搭建,版本1.7.0_51,hadoop由Java编写; 阅读全文
posted @ 2017-08-13 11:23 若鸟 阅读(326) 评论(0) 推荐(0) 编辑
摘要: Scrapy架构概述 1, 从最初自己编写的spiders,获取到start_url,并且封装成Request对象。 2,通过engine(引擎)调度给SCHEDULER(Requests管理调度器)。 3,SCHEDULER管理ENGINE传递过来的所有Requests,通过优先级,传递给ENGI 阅读全文
posted @ 2017-08-09 22:21 若鸟 阅读(279) 评论(0) 推荐(0) 编辑
摘要: Redis数据库概述 Redis是什么 redis是一个高性能的key-value存储系统。支持的value类型相对更多,包括string,list,set,zset(sorted set --有序集合)和hash(哈希)。 Redis 安装 Linux: sudo apt-get install 阅读全文
posted @ 2017-08-09 00:23 若鸟 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫概述 什么是分布式爬虫: 多个爬虫分布在不同的服务器上,通过状态管理器进行统一调度,达到像URL去重等功能的爬虫系统 分布式爬虫的优点 1) 充分利用多台机器的宽带加速 2)充分利用多机器的IP加速爬取速度 Scrapy分布式爬虫原理 单机Scrapy爬虫架构 分布式爬虫需要改进的Scra 阅读全文
posted @ 2017-08-08 17:35 若鸟 阅读(545) 评论(0) 推荐(0) 编辑
摘要: Spark:快速的通用的分布式计算框架 概述和特点: 1) Speed,(开发和执行)速度快。基于内存的计算;DAG(有向无环图)的计算引擎;基于线程模型; 2)Easy of use,易用 。 多语言(Java,python,scala,R); 多种计算API可调用;可在交互式模式下运行; 3)G 阅读全文
posted @ 2017-08-08 10:31 若鸟 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 错误解决记录 软件包依赖 mariadb组件 阅读全文
posted @ 2017-08-07 16:41 若鸟 阅读(1261) 评论(0) 推荐(1) 编辑
摘要: rhel7安装mysql服务 环境: 1)rhel 7虚拟机 2)配置完163网络yum源,并且保证网络通畅 安装过程: 1) 安装Mysql和Mysql-devel 命令:yum install mysql yum install mysql-devel 2 ) 安装mysql-server 命令 阅读全文
posted @ 2017-08-07 16:18 若鸟 阅读(529) 评论(0) 推荐(0) 编辑
摘要: Yum本地源的配置 本教程是在虚拟机里安装Red Hat Enterprise Linux 7 ,以其为例使用iso文件进行Yum本地源的配置。所使用的软件如下: (1)虚拟机:Vmware workstation 11.0.0 build-2305329 (2)Linux:Red Hat Ente 阅读全文
posted @ 2017-08-07 15:57 若鸟 阅读(825) 评论(0) 推荐(0) 编辑
摘要: redhat 7.2配置网易yum源 卸载原来的yum源和安装必须的rpm包 1)确保虚拟机能够连接外网 2)前往http://mirrors.163.com/centos/7/os/x86_64/Packages/下载一下rpm包: python-iniparse-0.4-9.el7.noarch 阅读全文
posted @ 2017-08-06 16:35 若鸟 阅读(990) 评论(0) 推荐(0) 编辑
摘要: Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题 阅读全文
posted @ 2017-08-06 12:44 若鸟 阅读(1066) 评论(0) 推荐(0) 编辑