01.bigdata - 随笔分类(第2页) - 小得盈满

Flink Standalone集群jobmanagers高可用配置

摘要：上篇文章简单叙述了Flink standalone集群的基础部署，在生产环境中假如只有1个jobmanager的话，那么这个节点一旦挂掉，所有运行的task都会中断，带来的影响比较大，因此在生产环境至少要保证jobmanager的高可用，至少2个节点，也可以将jobmanager和taskmanag 阅读全文

posted @ 2019-12-24 17:04 小得盈满阅读(2407) 评论(2) 推荐(1)

Flink Standalone集群部署

摘要：Flink Standalone模式部署集群是最简单的一种部署方式，不依赖于其他的组件，另外还支持YARN/Mesos/Docker等模式下的部署，这里使用的flink版本为最新的稳定版1.9.1版本，对应的Scala版本是2.11，二进制包为：flink-1.9.1-bin-scala_2.11. 阅读全文

posted @ 2019-12-24 15:51 小得盈满阅读(8527) 评论(3) 推荐(1)

rabbitmq在linux下单节点部署和基本使用

摘要：RabbitMQ是基于erlang开发的消息服务，官网为：https://www.rabbitmq.com，RabbitMQ要依赖erlang运行，所以要先安装erlang环境，rabbitmq可以用rpm或通用二进制包安装，这里使用二进制包的方式安装，版本为3.8.1，对应的erlang版本为22 阅读全文

posted @ 2019-11-08 14:03 小得盈满阅读(1132) 评论(0) 推荐(0)

使用kafka-python客户端进行kafka kerberos认证

摘要：之前说过python confluent kafka客户端做kerberos认证的过程，如果使用kafka python客户端的话同样也可以进行kerberos的认证，具体的认证机制这里不再描述，主要叙述配置认证的过程需要的模块有下面这些： kafka-python：https://pypi.or 阅读全文

posted @ 2019-10-15 09:36 小得盈满阅读(6400) 评论(0) 推荐(1)

python confluent kafka客户端配置kerberos认证

摘要：kafka的认证方式一般有如下3种： 1. SASL/GSSAPI 从版本0.9.0.0开始支持 2. SASL/PLAIN 从版本0.10.0.0开始支持 3. SASL/SCRAM-SHA-256 以及 SASL/SCRAM-SHA-512 从版本0.10.2.0开始支持其中第一种SASL/G 阅读全文

posted @ 2019-10-11 17:57 小得盈满阅读(3764) 评论(2) 推荐(0)

ClickHouse高可用集群的配置

摘要：上一篇文章写过centos 7下clickhouse rpm包安装和基本的目录结构，这里主要介绍clickhouse高可用集群的部署方案，因为对于默认的分布式表的配置，每个分片只有一份，这样如果挂掉一个节点，则查询分布式表的时候直接会报错，这个是基于clickhouse自己实现的多分片单副本集群，配阅读全文

posted @ 2018-07-23 16:49 小得盈满阅读(41250) 评论(8) 推荐(0)

centos7下使用rpm包安装clickhouse

摘要：clickhouse是由俄罗斯Yandex公司开发的列式存储数据库，于2016年开源，clickhouse的定位是快速的数据分析，对于处理海量数据的情况性能非常好，在网上也有很多测试的案例，在大数据的情况下性能远超过其他数据库，并且不依赖于hadoop的生态系统，都是独立使用，在大数据存储业务上还是阅读全文

posted @ 2018-07-20 18:14 小得盈满阅读(11654) 评论(4) 推荐(0)

SeaweedFS的配置使用

摘要：SeaweedFS是一个简单并且高度可扩展的分布式文件系统，可以存储数十亿的文件并且快速获得文件，特别适合于有效处理小文件，这里我们简称为weed，weed的主节点不管理文件元数据而是仅管理文件卷，这些文件卷服务器各自管理各自的元数据，所以这样在高并发的情况下减少了主节点的压力和网络通信，同时定位文阅读全文

posted @ 2018-07-20 11:20 小得盈满阅读(3894) 评论(2) 推荐(0)

Linux下RocketMQ环境的配置

摘要：RocketMQ是一款分布式消息系统，最初是由阿里巴巴消息中间件团队研发并大规模应用于生产系统，满足线上海量堆积的需求，在去年捐赠给Apache开源基金会，并列为孵化项目，今年成功的正式成为了apache顶级项目；早期阿里曾经基于ActiveMQ研发的消息系统，随着业务消息的规模增大，瓶颈逐渐明显，阅读全文

posted @ 2017-11-11 01:09 小得盈满阅读(45316) 评论(8) 推荐(1)

Kafka集群搭建 (2.11-0.9.0.1)

摘要：之前写过kafka_2.9.2-0.8.2.2版本的安装，kafka在新的0.9版本以上改动比较大，配置和api都有很大更新，并且broker对应的partition支持多线程生产和消费，所以性能比之前好得多，比如老版本的kafka单机每秒可以推送100条数据，但是新版的可以每秒推送达到上千条数据，阅读全文

posted @ 2017-08-17 11:01 小得盈满阅读(9370) 评论(0) 推荐(3)

Linux下安装MongoDB

摘要：MongoDB是一个C++编写的基于分布式文件存储的数据库，是一个介于关系和非关系之间的数据库，当然也属于NoSQL的行列，存储方式和Redis类似，是json格式的kav-value存储方式，只是Redis是内存存储，而MongoDB是和普通的数据库目录一样存储在硬盘上下面就在Linux上部署单阅读全文

posted @ 2016-10-19 22:07 小得盈满阅读(34472) 评论(0) 推荐(0)

Spark on YARN的部署

摘要：Spark on YARN的原理就是依靠yarn来调度Spark，比默认的Spark运行模式性能要好的多，前提是首先部署好hadoop HDFS并且运行在yarn上，然后就可以开始部署spark on yarn了，假设现在准备环境已经部署完毕，这里是在CDH 环境下部署Spark 除了上面的环境准备阅读全文

posted @ 2016-09-23 09:55 小得盈满阅读(15374) 评论(0) 推荐(0)

Spark集群部署

摘要：Spark是通用的基于内存计算的大数据框架，可以和hadoop生态系统很好的兼容，以下来部署Spark集群集群环境：3节点 Master:bigdata1 Slaves:bigdata2,bigdata3 Master负责任务的分发，与集群状态的显示 Slaves运行具体的Worker任务，最后交阅读全文

posted @ 2016-08-15 17:03 小得盈满阅读(15909) 评论(0) 推荐(1)

JStorm集群的部署

摘要：JStorm是一个类似Hadoop MapReduce的系统，不同的是JStorm是一套基于流水线的消息处理机制，是阿里基于Storm优化的版本，和Storm一样是一个分布式实时计算的系统，从开发角度来说，JStorm所有的概念和Storm都相同，所有的编程代码一行不用改也可以直接放到JStorm运阅读全文

posted @ 2016-06-28 17:02 小得盈满阅读(9989) 评论(0) 推荐(0)

HBase集成Zookeeper集群部署

摘要：大数据集群为了保证故障转移，一般通过zookeeper来整体协调管理，当节点数大于等于6个时推荐使用，接下来描述一下Hbase集群部署在zookeeper上的过程：安装Hbase之前首先系统应该做通用的集群环境准备工作，这些是必须的： 1、集群中主机名必须正确配置，最好有实际意义；并且主机名都在h 阅读全文

posted @ 2016-05-25 10:57 小得盈满阅读(20704) 评论(0) 推荐(0)

HBase独立集群部署

摘要：HBase是分布式、面向列式存储的开源数据库，来源于Google的论文BigTable，HBase运行于Hadoop平台之上，不同于一般的关系数据库，是一个适合非结构化数据存储的分布式数据库安装Hbase之前首先系统应该做通用的集群环境准备工作，这些是必须的： 1、集群中主机名必须正确配置，最好有阅读全文

posted @ 2016-04-20 11:14 小得盈满阅读(3577) 评论(0) 推荐(0)

Linux集群配置ntp时间同步服务

摘要：集群中时间不同步有可能会让大数据的应用程序运行混乱，造成不可预知的问题，比如Hbase，当时间差别过大时就会挂掉，所以在大数据集群中，ntp服务，应该作为一种基础的服务，以下在演示在CentOS 7.2集群上配置ntp服务的过程首先检查系统中是否安装ntp包： rpm -q ntp 我这里是只是基阅读全文

posted @ 2016-04-14 12:07 小得盈满阅读(5646) 评论(0) 推荐(0)

Redis主从节点和哨兵的部署

摘要：Redis集群分为主节点Master和从节点Slave，主节点只有1个，而从节点可以有多个，这样从节点和主节点可以进行数据的传输，Redis集群的性能将比单机环境更高，接下来是配置的过程首先配置Master节点，主节点的配置和之前Redis单机配置完全一样，并不需要额外的其他任何配置然后配置Sl 阅读全文

posted @ 2016-04-07 10:58 小得盈满阅读(2866) 评论(0) 推荐(1)

Storm集成Kafka应用的开发

摘要：我们知道storm的作用主要是进行流式计算，对于源源不断的均匀数据流流入处理是非常有效的，而现实生活中大部分场景并不是均匀的数据流，而是时而多时而少的数据流入，这种情况下显然用批量处理是不合适的，如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉，应对这种情况，使用kafka作为消息队阅读全文

posted @ 2016-03-18 17:24 小得盈满阅读(30369) 评论(4) 推荐(3)

开发简单的Kafka应用

摘要：之前基于集群和单机安装过kafka，现在利用kafka提供的API构建一个简单的生产者消费者的项目示例，来跑通kafka的流程，具体过程如下：首先使用eclipse for javaee建立一个maven项目，然后在pom.xml添加如下依赖配置：这里kafka版本是kafka_2.9.2-0. 阅读全文

posted @ 2016-03-18 10:41 小得盈满阅读(4963) 评论(0) 推荐(1)

小得盈满

热爱数学和计算机技术，也热爱生活^_^

随笔分类 - 01.bigdata

公告