随笔分类 -  大数据

摘要:Hadoop HA 什么是 HA HA是High Available缩写,是双机集群系统简称,指高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在 阅读全文
posted @ 2019-05-22 20:39 janlle 阅读(488) 评论(0) 推荐(0)
摘要:Ubuntu 下编译 Hadoop 2.9.2 系统环境 安装所需环境 编译过程中可能遇到的问题 注意 libssl dev安装换成 libssl1.0 dev版本。 我之前就是默认安转,在编译OpenSSL功能的时候一直卡主编译不通过。具体错误形式如下 开始编译 hadoop 大功告成编译后的ha 阅读全文
posted @ 2019-05-13 21:08 janlle 阅读(396) 评论(0) 推荐(0)
摘要:Kafka Kafka 核心概念 什么是 Kafka Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级 阅读全文
posted @ 2019-04-26 22:35 janlle 阅读(1102) 评论(0) 推荐(0)
摘要:Hadoop Hadoop背景 什么是HADOOP HADOOP是apache旗下的一套开源软件平台HADOOP提供利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理,HADOOP的核心组件有:HDFS(分布式文件系统)、YARN(运算资源调度系统)、MAPREDUCE(分布式运算编 阅读全文
posted @ 2019-01-11 09:34 janlle 阅读(1113) 评论(0) 推荐(0)
摘要:flume flume 简介及核心概念 什么是flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前是Apache的顶级项目。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据 阅读全文
posted @ 2019-01-02 17:30 janlle 阅读(603) 评论(0) 推荐(0)
摘要:lucene Lucene介绍及核心概念 什么是Lucene Lucene是一套用于全文检索和搜索的开放源代码程序库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程序接口,能够做全文索引和搜索,在Java开发环境里Lucene是一个成熟的免费开放源代码工具;就其本身而论 阅读全文
posted @ 2018-12-29 09:22 janlle 阅读(736) 评论(0) 推荐(0)
摘要:zookeeper zookeeper是什么 Apache ZooKeeper是Apache软件基金会的一个软件项目,他为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。ZooKeeper曾经是Hadoop的一个子项目,但现在是一个独立的顶级项目。 ZooKeeper的架构通过冗余服务实 阅读全文
posted @ 2018-12-22 10:04 janlle 阅读(329) 评论(0) 推荐(0)