若鸟 - 博客园

2017年8月13日

摘要：想要搭建自己的Hadoop和spark集群，尤其是在生产环境中，下载官网提供的安装包远远不够的，必须要自己源码编译spark才行。环境准备： 1，Maven环境搭建,版本Apache Maven 3.3.9，jar包管理工具； 2，JDK环境搭建，版本1.7.0_51，hadoop由Java编写；阅读全文

posted @ 2017-08-13 11:23 若鸟阅读(362) 评论(0) 推荐(0)

2017年8月9日

Scrapy架构概述

摘要： Scrapy架构概述 1，从最初自己编写的spiders，获取到start_url，并且封装成Request对象。 2，通过engine(引擎)调度给SCHEDULER(Requests管理调度器)。 3，SCHEDULER管理ENGINE传递过来的所有Requests，通过优先级，传递给ENGI 阅读全文

posted @ 2017-08-09 22:21 若鸟阅读(294) 评论(0) 推荐(0)

Redis数据库概述

摘要： Redis数据库概述 Redis是什么 redis是一个高性能的key-value存储系统。支持的value类型相对更多，包括string,list,set,zset(sorted set --有序集合)和hash(哈希)。 Redis 安装 Linux: sudo apt-get install 阅读全文

posted @ 2017-08-09 00:23 若鸟阅读(253) 评论(0) 推荐(0)

2017年8月8日

分布式爬虫（一）------------------分布式爬虫概述

摘要：分布式爬虫概述什么是分布式爬虫：多个爬虫分布在不同的服务器上，通过状态管理器进行统一调度，达到像URL去重等功能的爬虫系统分布式爬虫的优点 1）充分利用多台机器的宽带加速 2）充分利用多机器的IP加速爬取速度 Scrapy分布式爬虫原理单机Scrapy爬虫架构分布式爬虫需要改进的Scra 阅读全文

posted @ 2017-08-08 17:35 若鸟阅读(576) 评论(0) 推荐(0)

Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比

摘要： Spark：快速的通用的分布式计算框架概述和特点： 1) Speed,（开发和执行）速度快。基于内存的计算；DAG（有向无环图）的计算引擎；基于线程模型； 2）Easy of use,易用。多语言（Java,python,scala,R）; 多种计算API可调用；可在交互式模式下运行； 3）G 阅读全文

posted @ 2017-08-08 10:31 若鸟阅读(538) 评论(0) 推荐(0)

2017年8月7日

错误解决记录------------rhel安装Mysql软件包依赖 mariadb组件

摘要：错误解决记录软件包依赖 mariadb组件阅读全文

posted @ 2017-08-07 16:41 若鸟阅读(1318) 评论(0) 推荐(1)

rhel 7安装Mysql

摘要： rhel7安装mysql服务环境： 1）rhel 7虚拟机 2）配置完163网络yum源，并且保证网络通畅安装过程： 1）安装Mysql和Mysql-devel 命令：yum install mysql yum install mysql-devel 2 ) 安装mysql-server 命令阅读全文

posted @ 2017-08-07 16:18 若鸟阅读(562) 评论(0) 推荐(0)

Linux虚拟机搭建本地yum源

摘要： Yum本地源的配置本教程是在虚拟机里安装Red Hat Enterprise Linux 7 ,以其为例使用iso文件进行Yum本地源的配置。所使用的软件如下： (1)虚拟机：Vmware workstation 11.0.0 build-2305329 (2)Linux:Red Hat Ente 阅读全文

posted @ 2017-08-07 15:57 若鸟阅读(862) 评论(0) 推荐(0)

2017年8月6日

rhel配置网络yum源

摘要： redhat 7.2配置网易yum源卸载原来的yum源和安装必须的rpm包 1）确保虚拟机能够连接外网 2）前往http://mirrors.163.com/centos/7/os/x86_64/Packages/下载一下rpm包： python-iniparse-0.4-9.el7.noarch 阅读全文

posted @ 2017-08-06 16:35 若鸟阅读(1045) 评论(0) 推荐(0)

Spark环境搭建（四）-----------数据仓库Hive环境搭建

摘要： Hive产生背景 1）MapReduce的编程不便，需通过Java语言等编写程序 2） HDFS上的文缺失Schema(在数据库中的表名列名等)，方便开发者通过SQL的方式处理结构化的数据，而不需要Java等编写程序 Hive是什么 1）facebook开源，最初为解决海量的结构化日志数据统计问题阅读全文

posted @ 2017-08-06 12:44 若鸟阅读(1095) 评论(0) 推荐(0)

若鸟

公告