摘要: 1.大数据平台 大数据在工作中的应用有三种: 与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴; 与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。 数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。 阅读全文
posted @ 2019-10-01 23:56 漠漠颜 阅读(1430) 评论(0) 推荐(0) 编辑
摘要: HDP(Hortonworks Data Platform)是hortworks推出的100%开源的hadoop发行版本,以YARN 作为其架构中心,包含pig、hive、phoniex、hbase、storm、spark等大量组件,在最新的2.4版本,监控UI实现与grafana集成,包含组件版本 阅读全文
posted @ 2019-10-01 23:46 漠漠颜 阅读(938) 评论(0) 推荐(0) 编辑
摘要: 参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。 目录: Spark集群安装 参数配置 测试验证 Spark集群安装: 在ambari 阅读全文
posted @ 2019-10-01 23:44 漠漠颜 阅读(1014) 评论(0) 推荐(0) 编辑
摘要: Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1 阅读全文
posted @ 2019-10-01 23:43 漠漠颜 阅读(262) 评论(0) 推荐(0) 编辑
摘要: Spark基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: S 阅读全文
posted @ 2019-10-01 23:41 漠漠颜 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 1. Elasticsearch 命令的基本格式 RESTful接口URL的格式: http://localhost:9200/<index>/<type>/[<id>] 其中index、type是必须提供的。id是可选的,不提供es会自动生成。index、type将信息进行分层,利于管理。inde 阅读全文
posted @ 2019-10-01 23:37 漠漠颜 阅读(1539) 评论(1) 推荐(0) 编辑
摘要: 1.1 从官网下载安装包,并通过Xftp5上传到机器集群上 下载elasticsearch-6.2.4.tar.gz版本,并通过Xftp5上传到hadoop机器集群的第一个节点node1上的/opt/uploads/目录: 1.2 解压elasticsearch-6.2.4.tar.gz,并把解压的 阅读全文
posted @ 2019-10-01 23:33 漠漠颜 阅读(540) 评论(0) 推荐(0) 编辑
摘要: 1.从官网下载安装包,并通过Xftp5上传到机器集群上 下载logstash-6.2.3.tar.gz版本,并通过Xftp5上传到hadoop机器集群的第一个节点node1上的/opt/uploads/目录: 2、解压logstash-6.2.3.tar.gz,并把解压的安装包移动到/opt/app 阅读全文
posted @ 2019-10-01 23:30 漠漠颜 阅读(568) 评论(0) 推荐(0) 编辑
摘要: 1.从官网下载安装包,并通过Xftp5上传到机器集群上 下载kafka_2.11-1.1.0.tgz版本,并通过Xftp5上传到hadoop机器集群的第一个节点node1上的/opt/uploads/目录: 2、解压kafka_2.11-1.1.0.tgz,并把解压的安装包移动到/opt/app/目 阅读全文
posted @ 2019-10-01 23:27 漠漠颜 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 1. Redis基础 1.1 Redis概述 Redis是一个开源、先进的key-value存储,并用于构建高性能、可扩展的应用程序的完美解决方案。 Redis从它的许多竞争继承了三个主要特点: ①Redis数据库完全在内存中,使用磁盘仅用于持久性; ②相比许多键值对数据存储,Redis拥有一套较为 阅读全文
posted @ 2019-10-01 23:25 漠漠颜 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 1. HBase安装部署 HBase有两种部署模式:单机版模式和集群版模式。无论哪种模式,都需要配置HBase conf目录下的文件。至少,必须在conf/hbase-env.sh文件中添加JAVA_HOME。在hbase-env.sh这个文件中,可以设置HBase的环境变量,如堆内存大小、JVM的 阅读全文
posted @ 2019-10-01 23:22 漠漠颜 阅读(930) 评论(0) 推荐(0) 编辑
摘要: 1. HBase简介 1.1 什么是HBase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成 阅读全文
posted @ 2019-10-01 23:19 漠漠颜 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.aboutyun.com//forum.php/?mod=viewthread&tid=6983&extra=page%3D1&page=1& 可以带着下面问题来阅读:1.chmod与chown的区别是什麽?2.cat将路径指定文件的内容输出到哪里?3.cp能否是不同 阅读全文
posted @ 2019-10-01 23:03 漠漠颜 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 转载自:https://www.aboutyun.com//forum.php/?mod=viewthread&tid=9341&extra=page%3D1&page=1& 问题导读: 1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么? 阅读全文
posted @ 2019-10-01 22:58 漠漠颜 阅读(401) 评论(0) 推荐(0) 编辑
摘要: Kafka学习之路 (一)Kafka的简介 https://www.cnblogs.com/qingyunzong/p/9004509.html 目录 一、简介 1.1 概述 1.2 消息系统介绍 1.3 点对点消息传递模式 1.4 发布-订阅消息传递模式 二、Kafka的优点 2.1 解耦 2.2 阅读全文
posted @ 2019-10-01 22:53 漠漠颜 阅读(160) 评论(0) 推荐(0) 编辑
摘要: Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/ 阅读全文
posted @ 2019-10-01 22:48 漠漠颜 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 1. kafka介绍 1.1. 主要功能 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1:It lets you publish and subscribe to streams of records.发布和订阅消息流,这个功能类似于消息队列,这也是kafka 阅读全文
posted @ 2019-10-01 22:44 漠漠颜 阅读(4237) 评论(0) 推荐(3) 编辑