随笔分类 -  01.bigdata

大数据环境搭建、配置调优、围绕平台开发等.
摘要:上篇文章简单叙述了Flink standalone集群的基础部署,在生产环境中假如只有1个jobmanager的话,那么这个节点一旦挂掉,所有运行的task都会中断,带来的影响比较大,因此在生产环境至少要保证jobmanager的高可用,至少2个节点,也可以将jobmanager和taskmanag 阅读全文
posted @ 2019-12-24 17:04 小得盈满 阅读(2407) 评论(2) 推荐(1)
摘要:Flink Standalone模式部署集群是最简单的一种部署方式,不依赖于其他的组件,另外还支持YARN/Mesos/Docker等模式下的部署,这里使用的flink版本为最新的稳定版1.9.1版本,对应的Scala版本是2.11,二进制包为:flink-1.9.1-bin-scala_2.11. 阅读全文
posted @ 2019-12-24 15:51 小得盈满 阅读(8527) 评论(3) 推荐(1)
摘要:RabbitMQ是基于erlang开发的消息服务,官网为:https://www.rabbitmq.com,RabbitMQ要依赖erlang运行,所以要先安装erlang环境,rabbitmq可以用rpm或通用二进制包安装,这里使用二进制包的方式安装,版本为3.8.1,对应的erlang版本为22 阅读全文
posted @ 2019-11-08 14:03 小得盈满 阅读(1132) 评论(0) 推荐(0)
摘要:之前说过python confluent kafka客户端做kerberos认证的过程,如果使用kafka python客户端的话同样也可以进行kerberos的认证,具体的认证机制这里不再描述,主要叙述配置认证的过程 需要的模块有下面这些: kafka-python:https://pypi.or 阅读全文
posted @ 2019-10-15 09:36 小得盈满 阅读(6400) 评论(0) 推荐(1)
摘要:kafka的认证方式一般有如下3种: 1. SASL/GSSAPI 从版本0.9.0.0开始支持 2. SASL/PLAIN 从版本0.10.0.0开始支持 3. SASL/SCRAM-SHA-256 以及 SASL/SCRAM-SHA-512 从版本0.10.2.0开始支持 其中第一种SASL/G 阅读全文
posted @ 2019-10-11 17:57 小得盈满 阅读(3764) 评论(2) 推荐(0)
摘要:上一篇文章写过centos 7下clickhouse rpm包安装和基本的目录结构,这里主要介绍clickhouse高可用集群的部署方案,因为对于默认的分布式表的配置,每个分片只有一份,这样如果挂掉一个节点,则查询分布式表的时候直接会报错,这个是基于clickhouse自己实现的多分片单副本集群,配 阅读全文
posted @ 2018-07-23 16:49 小得盈满 阅读(41250) 评论(8) 推荐(0)
摘要:clickhouse是由俄罗斯Yandex公司开发的列式存储数据库,于2016年开源,clickhouse的定位是快速的数据分析,对于处理海量数据的情况性能非常好,在网上也有很多测试的案例,在大数据的情况下性能远超过其他数据库,并且不依赖于hadoop的生态系统,都是独立使用,在大数据存储业务上还是 阅读全文
posted @ 2018-07-20 18:14 小得盈满 阅读(11654) 评论(4) 推荐(0)
摘要:SeaweedFS是一个简单并且高度可扩展的分布式文件系统,可以存储数十亿的文件并且快速获得文件,特别适合于有效处理小文件,这里我们简称为weed,weed的主节点不管理文件元数据而是仅管理文件卷,这些文件卷服务器各自管理各自的元数据,所以这样在高并发的情况下减少了主节点的压力和网络通信,同时定位文 阅读全文
posted @ 2018-07-20 11:20 小得盈满 阅读(3894) 评论(2) 推荐(0)
摘要:RocketMQ是一款分布式消息系统,最初是由阿里巴巴消息中间件团队研发并大规模应用于生产系统,满足线上海量堆积的需求,在去年捐赠给Apache开源基金会,并列为孵化项目,今年成功的正式成为了apache顶级项目;早期阿里曾经基于ActiveMQ研发的消息系统,随着业务消息的规模增大,瓶颈逐渐明显, 阅读全文
posted @ 2017-11-11 01:09 小得盈满 阅读(45316) 评论(8) 推荐(1)
摘要:之前写过kafka_2.9.2-0.8.2.2版本的安装,kafka在新的0.9版本以上改动比较大,配置和api都有很大更新,并且broker对应的partition支持多线程生产和消费,所以性能比之前好得多,比如老版本的kafka单机每秒可以推送100条数据,但是新版的可以每秒推送达到上千条数据, 阅读全文
posted @ 2017-08-17 11:01 小得盈满 阅读(9370) 评论(0) 推荐(3)
摘要:MongoDB是一个C++编写的基于分布式文件存储的数据库,是一个介于关系和非关系之间的数据库,当然也属于NoSQL的行列,存储方式和Redis类似,是json格式的kav-value存储方式,只是Redis是内存存储,而MongoDB是和普通的数据库目录一样存储在硬盘上 下面就在Linux上部署单 阅读全文
posted @ 2016-10-19 22:07 小得盈满 阅读(34472) 评论(0) 推荐(0)
摘要:Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,假设现在准备环境已经部署完毕,这里是在CDH 环境下部署Spark 除了上面的环境准备 阅读全文
posted @ 2016-09-23 09:55 小得盈满 阅读(15374) 评论(0) 推荐(0)
摘要:Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群 集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigdata3 Master负责任务的分发,与集群状态的显示 Slaves运行具体的Worker任务,最后交 阅读全文
posted @ 2016-08-15 17:03 小得盈满 阅读(15909) 评论(0) 推荐(1)
摘要:JStorm是一个类似Hadoop MapReduce的系统,不同的是JStorm是一套基于流水线的消息处理机制,是阿里基于Storm优化的版本,和Storm一样是一个分布式实时计算的系统,从开发角度来说,JStorm所有的概念和Storm都相同,所有的编程代码一行不用改也可以直接放到JStorm运 阅读全文
posted @ 2016-06-28 17:02 小得盈满 阅读(9989) 评论(0) 推荐(0)
摘要:大数据集群为了保证故障转移,一般通过zookeeper来整体协调管理,当节点数大于等于6个时推荐使用,接下来描述一下Hbase集群部署在zookeeper上的过程: 安装Hbase之前首先系统应该做通用的集群环境准备工作,这些是必须的: 1、集群中主机名必须正确配置,最好有实际意义;并且主机名都在h 阅读全文
posted @ 2016-05-25 10:57 小得盈满 阅读(20704) 评论(0) 推荐(0)
摘要:HBase是分布式、面向列式存储的开源数据库,来源于Google的论文BigTable,HBase运行于Hadoop平台之上,不同于一般的关系数据库,是一个适合非结构化数据存储的分布式数据库 安装Hbase之前首先系统应该做通用的集群环境准备工作,这些是必须的: 1、集群中主机名必须正确配置,最好有 阅读全文
posted @ 2016-04-20 11:14 小得盈满 阅读(3577) 评论(0) 推荐(0)
摘要:集群中时间不同步有可能会让大数据的应用程序运行混乱,造成不可预知的问题,比如Hbase,当时间差别过大时就会挂掉,所以在大数据集群中,ntp服务,应该作为一种基础的服务,以下在演示在CentOS 7.2集群上配置ntp服务的过程 首先检查系统中是否安装ntp包: rpm -q ntp 我这里是只是基 阅读全文
posted @ 2016-04-14 12:07 小得盈满 阅读(5646) 评论(0) 推荐(0)
摘要:Redis集群分为主节点Master和从节点Slave,主节点只有1个,而从节点可以有多个,这样从节点和主节点可以进行数据的传输,Redis集群的性能将比单机环境更高,接下来是配置的过程 首先配置Master节点,主节点的配置和之前Redis单机配置完全一样,并不需要额外的其他任何配置 然后配置Sl 阅读全文
posted @ 2016-04-07 10:58 小得盈满 阅读(2866) 评论(0) 推荐(1)
摘要:我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应对这种情况,使用kafka作为消息队 阅读全文
posted @ 2016-03-18 17:24 小得盈满 阅读(30369) 评论(4) 推荐(3)
摘要:之前基于集群和单机安装过kafka,现在利用kafka提供的API构建一个简单的生产者消费者的项目示例,来跑通kafka的流程,具体过程如下: 首先使用eclipse for javaee建立一个maven项目,然后在pom.xml添加如下依赖配置: 这里kafka版本是kafka_2.9.2-0. 阅读全文
posted @ 2016-03-18 10:41 小得盈满 阅读(4963) 评论(0) 推荐(1)