摘要:
一、环境准备 系统:CentOS 6.5 防火墙已关闭:service iptables stop MySql:已安装配置MySql 具体方法:MySQL手动安装方法:点击查看 主从服务器: 192.168.244.11 node1 主 192.168.244.12 node2 从 二、配置主 从服
阅读全文
posted @ 2016-09-21 18:20
Bodi
阅读(644)
推荐(0)
摘要:
一、MyCat的简介 MyCat高可用、负载均衡架构图: 详细知识点: MySQL分布式集群之MyCAT(一)简介(修正) 二、MyCat的schema.xml讲解 详细知识点:MySQL分布式集群之MyCAT(二)schema详解(修正) 三、MyCat的分片规则 详细知识点:MySQL分布式集群
阅读全文
posted @ 2016-09-21 17:24
Bodi
阅读(1839)
推荐(0)
摘要:
一、安装MySQL或MariaDB(本文以MariaDB为例) MySQL手动安装方法:点击查看 MariaDB安装: 1、下载MariaDB的repo 2、安装MariaDB 其他修改MariaDB的密码或授权操作与MySql无异,可按http://www.cnblogs.com/raphael5
阅读全文
posted @ 2016-09-19 13:58
Bodi
阅读(7942)
推荐(0)
摘要:
1、ActiveMQ服务器工作模型 通过ActiveMQ消息服务交换消息。消息生产者将消息发送至消息服务,消息消费者则从消息服务接收这些消息。这些消息传送操作是使用一组实现 ActiveMQ应用编程接口 (API) 的对象来执行的。 ActiveMQ客户端使用 ConnectionFactory 对
阅读全文
posted @ 2016-08-19 11:36
Bodi
阅读(1899)
推荐(0)
摘要:
一、 概述与介绍 ActiveMQ 是Apache出品,最流行的、功能强大的即时通讯和集成模式的开源服务器。ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范的 JMS Provider实现。提供客户端支持跨语言和协议,带有易于在充分支持JMS 1.1和1.4使用J2EE企业集成模式
阅读全文
posted @ 2016-08-19 10:14
Bodi
阅读(1011)
推荐(0)
摘要:
Redis 3.0集群 Window搭建方案 1、集群安装前准备 安装Ruby环境,安装:rubyinstaller-2.3.0-x64.exe http://dl.bintray.com/oneclick/rubyinstaller/rubyinstaller-2.2.4-x64.exe 这里将R
阅读全文
posted @ 2016-07-18 14:36
Bodi
阅读(3185)
推荐(0)
摘要:
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,
阅读全文
posted @ 2016-05-16 10:29
Bodi
阅读(2076)
推荐(0)
摘要:
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。 Namenode:元数
阅读全文
posted @ 2016-05-16 10:27
Bodi
阅读(2872)
推荐(1)
摘要:
Yum –y install ntp安装时钟同步服务加入开机启动Chkcongfig ntpd on添加自动校对时间,每十分钟校对一次Crontab –e */10 * * * * /usr/sbin/ntpdate s2c.time.edu.cn
阅读全文
posted @ 2016-04-17 16:55
Bodi
阅读(417)
推荐(0)
摘要:
1、安装Elasticsearch集群 1.下载elasticsearch-2.0.0.tar.gz,执行tar -zxvf elasticsearch-2.0.0.tar.gz解压 2.修改config/elasticsearch.yml (注意不要顶格写首字母前面加一空格,冒号后面要加一个空格)
阅读全文
posted @ 2016-03-29 23:11
Bodi
阅读(4172)
推荐(0)
摘要:
1、elasticsearch简介 中文帮助文档地址:http://es.xiaoleilu.com/ • Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。 – 普通请求是...
阅读全文
posted @ 2016-03-29 22:36
Bodi
阅读(1053)
推荐(0)
摘要:
• 执行计划 – 查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案 – 命令:explain sql、profile 要点: • 1、SQL优化,使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件(如果有其他程序产生的小文件,可以使用中间
阅读全文
posted @ 2016-03-23 22:38
Bodi
阅读(2254)
推荐(1)
摘要:
• 配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.password=• 尽量使用Pr
阅读全文
posted @ 2016-03-23 22:32
Bodi
阅读(4664)
推荐(0)
摘要:
Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 • 步骤2:创建hive表 • 步骤3:刷新Impala表
阅读全文
posted @ 2016-03-23 22:28
Bodi
阅读(2271)
推荐(0)
摘要:
1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部,直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用: $ impala-shell -h 这样就可以查看了; 再例如显示一个SQL语句的执行计划: $ impala-shel
阅读全文
posted @ 2016-03-23 21:50
Bodi
阅读(20696)
推荐(4)
摘要:

• Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
• 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点
• 是CDH平台首选的PB级大数据实时查询分析引擎
阅读全文
posted @ 2016-03-21 22:45
Bodi
阅读(2322)
推荐(2)
摘要:
注:我的运行环境是widnows xp professional + MySQL5.0 一, 创建用户: 命令:CREATE USER 'username'@'host' IDENTIFIED BY 'password'; 说明:username - 你将创建的用户名, host - 指定该用户在哪
阅读全文
posted @ 2016-03-20 09:55
Bodi
阅读(1865)
推荐(0)
摘要:
1、Cloudera Manager • Cloudera Manager是一个管理CDH的端到端的应用。 • 作用: – 管理 – 监控 – 诊断 – 集成 • 架构 • Server – 管理控制台服务器和应用程序逻辑 – 负责软件安装、配置,启动和停止服务 – 管理服务运行的群集 • Agen
阅读全文
posted @ 2016-03-18 23:26
Bodi
阅读(5235)
推荐(2)
摘要:
1、Apache Hadoop 不足之处 • 版本管理混乱 • 部署过程繁琐、升级过程复杂 • 兼容性差 • 安全性低 2、Hadoop 发行版 • Apache Hadoop • Cloudera’s Distribution Including Apache Hadoop(CDH) • Hort
阅读全文
posted @ 2016-03-18 22:40
Bodi
阅读(59180)
推荐(2)
摘要:
应用场景1 、统一命名服务 » 分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况 下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。 » Name Service 是 Zookeeper 内置的功能,只要调用
阅读全文
posted @ 2016-03-17 22:29
Bodi
阅读(4837)
推荐(0)
摘要:
1、登录Zookeeper客户端 2、如何在Zookeeper下使用帮助文档 下面是一些小练习:
阅读全文
posted @ 2016-03-17 22:08
Bodi
阅读(4637)
推荐(0)
摘要:
1、Zookeeper的角色 » 领导者(leader),负责进行投票的发起和决议,更新系统状态 » 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 » Observer可以接受客户端连
阅读全文
posted @ 2016-03-16 22:49
Bodi
阅读(205248)
推荐(21)
摘要:
1、下载与解压 Zookeeper下载地址:http://www.apache.org/dyn/closer.cgi/zookeeper/ 下载完成以后解压到一个特定目录 2、Zooker配置 Zookeeper集群模式至少需要3台主机进行搭建,准备三台主机Serve1、Server2、Server
阅读全文
posted @ 2016-03-16 21:57
Bodi
阅读(10284)
推荐(0)
摘要:
阅读全文
posted @ 2016-03-16 21:31
Bodi
阅读(6900)
推荐(3)
摘要:
开发环境准备:eclipse3.5、jdk1.7、window8、hadoop2.2.0、hbase0.98.0.2、phoenix4.3.0 1、从集群拷贝以下文件:core-site.xml、hbase-site.xml、hdfs-site.xml文件放到工程src下 2、把phoenix的ph
阅读全文
posted @ 2016-03-11 21:40
Bodi
阅读(11777)
推荐(1)
摘要:

线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布
阅读全文
posted @ 2016-03-11 16:49
Bodi
阅读(452)
推荐(0)
摘要:
本文将以MySQL 5.5.47为例,以CentOS 6.5为平台,讲述MySQL数据库的安装和设置。 源码包方式安装 1.新建MySql用户和用户组 groupadd mysql useradd -r -g mysql -M mysql yum install boost-devel tar -z
阅读全文
posted @ 2016-03-11 15:03
Bodi
阅读(2233)
推荐(0)
摘要:

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
阅读全文
posted @ 2016-03-11 10:10
Bodi
阅读(1339)
推荐(0)
摘要:
1、建表 执行建表语句 $ ./psql.py localhost:2181 ../examples/stock_symbol.sql 其中../examples/stock_symbol.sql是建表的sql语句 CREATE TABLE IF NOT EXISTS WEB_STAT ( HOST
阅读全文
posted @ 2016-03-09 23:20
Bodi
阅读(4884)
推荐(0)
摘要:
描述 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要记录Phoenix。 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java
阅读全文
posted @ 2016-03-09 23:12
Bodi
阅读(12743)
推荐(2)
摘要:
1、建立学生和课程表 要求:学生可以选择多个课程,每个课程可以被多个学生选择。 查询某个学生所选的所有课程列表 查询某个课程,的学生列表 学生可以修改所选的课程 方案:学生与课程之间是多对多关系,那可以建三张表 学生表、课程表、学生课程关系表 查询某个学生所选的所有课程列表:通过学生ID到学生课程表
阅读全文
posted @ 2016-03-07 21:40
Bodi
阅读(5235)
推荐(0)
摘要:
官方帮助文档:http://hbase.apache.org/book.html PDF:http://hbase.apache.org/apache_hbase_reference_guide.pdf 1、安装前准备 – Hadoop集群要启动正常 – Zookeeper集群启动正常 HBase
阅读全文
posted @ 2016-03-01 21:51
Bodi
阅读(3741)
推荐(1)
摘要:

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。
阅读全文
posted @ 2016-02-29 22:25
Bodi
阅读(53232)
推荐(3)
摘要:
MR执行环境有两种:本地测试环境,服务器环境 本地测试环境(windows,用于测试) 1、下载Winddows版的Hadoop程序,解压后在Hadoop目录的bin目录放置一个winutils.exe可执行文件(下载地址:http://pan.baidu.com/s/1mhrsQyG) 2、在wi
阅读全文
posted @ 2016-02-27 22:17
Bodi
阅读(2097)
推荐(0)
摘要:
1、程序代码 Map: import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io
阅读全文
posted @ 2016-02-27 21:55
Bodi
阅读(3176)
推荐(0)
摘要:
Hive嵌入Python Python的输入输出都是\t为分隔符,否则会出错,python脚本输入print出规定格式的数据 用法为先add file,使用语法为TRANSFORM (name, items) USING 'python test.py' AS (name string, item1
阅读全文
posted @ 2016-02-26 22:02
Bodi
阅读(1957)
推荐(0)
摘要:
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如
阅读全文
posted @ 2016-02-26 20:43
Bodi
阅读(789)
推荐(0)
摘要:
Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-G
阅读全文
posted @ 2016-02-24 22:08
Bodi
阅读(14296)
推荐(2)
摘要:
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为
阅读全文
posted @ 2016-02-24 21:34
Bodi
阅读(491)
推荐(0)
摘要:
在Hive中还有一项比较好用的功能,也是非常重要的功能:在建表的时候可以不指定表的行、字段、列的分隔方式,通过给表指定一段正则表达式,让Hive自动去匹配; 1、创建表 CREATE TABLE apachelog ( dates STRING, times STRING, types STRING
阅读全文
posted @ 2016-02-24 21:06
Bodi
阅读(2588)
推荐(0)