2019 年 10月 1 日随笔档案 - 漠漠颜

2019年10月1日

摘要： 1.大数据平台大数据在工作中的应用有三种：与决策相关，数据科学的领域，了解统计学、算法，这是数据科学家的范畴；与工程相关，如何实施、如何实现、解决什么业务问题，这是数据工程师的工作。数据工程师在业务和数据科学家之间搭建起实践的桥梁。本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面。阅读全文

posted @ 2019-10-01 23:56 漠漠颜阅读(1618) 评论(0) 推荐(0)

HDP2.4安装(五)：集群及组件安装

摘要： HDP(Hortonworks Data Platform)是hortworks推出的100%开源的hadoop发行版本,以YARN 作为其架构中心，包含pig、hive、phoniex、hbase、storm、spark等大量组件，在最新的2.4版本，监控UI实现与grafana集成,包含组件版本阅读全文

posted @ 2019-10-01 23:46 漠漠颜阅读(1088) 评论(0) 推荐(0)

Spark(三): 安装与配置

摘要：参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群，基于hadoop yarn 的运行模式。目录： Spark集群安装参数配置测试验证 Spark集群安装：在ambari 阅读全文

posted @ 2019-10-01 23:44 漠漠颜阅读(1065) 评论(0) 推荐(0)

Spark(二): 内存管理

摘要： Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1 阅读全文

posted @ 2019-10-01 23:43 漠漠颜阅读(297) 评论(0) 推荐(0)

Spark(一): 基本架构及原理

摘要： Spark基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： S 阅读全文

posted @ 2019-10-01 23:41 漠漠颜阅读(450) 评论(0) 推荐(0)

ElasticSearch基本使用

摘要： 1. Elasticsearch 命令的基本格式 RESTful接口URL的格式： http://localhost:9200/<index>/<type>/[<id>] 其中index、type是必须提供的。id是可选的，不提供es会自动生成。index、type将信息进行分层，利于管理。inde 阅读全文

posted @ 2019-10-01 23:37 漠漠颜阅读(1672) 评论(1) 推荐(0)

elasticSearch安装部署

摘要： 1.1 从官网下载安装包，并通过Xftp5上传到机器集群上下载elasticsearch-6.2.4.tar.gz版本，并通过Xftp5上传到hadoop机器集群的第一个节点node1上的/opt/uploads/目录： 1.2 解压elasticsearch-6.2.4.tar.gz，并把解压的阅读全文

posted @ 2019-10-01 23:33 漠漠颜阅读(556) 评论(0) 推荐(0)

logstash日志采集工具的安装部署

摘要： 1.从官网下载安装包，并通过Xftp5上传到机器集群上下载logstash-6.2.3.tar.gz版本，并通过Xftp5上传到hadoop机器集群的第一个节点node1上的/opt/uploads/目录： 2、解压logstash-6.2.3.tar.gz，并把解压的安装包移动到/opt/app 阅读全文

posted @ 2019-10-01 23:30 漠漠颜阅读(607) 评论(0) 推荐(0)

Kafka安装部署

摘要： 1.从官网下载安装包，并通过Xftp5上传到机器集群上下载kafka_2.11-1.1.0.tgz版本，并通过Xftp5上传到hadoop机器集群的第一个节点node1上的/opt/uploads/目录： 2、解压kafka_2.11-1.1.0.tgz，并把解压的安装包移动到/opt/app/目阅读全文

posted @ 2019-10-01 23:27 漠漠颜阅读(464) 评论(0) 推荐(0)

Redis基本概念、基本使用与单机集群部署

摘要： 1. Redis基础 1.1 Redis概述 Redis是一个开源、先进的key-value存储，并用于构建高性能、可扩展的应用程序的完美解决方案。 Redis从它的许多竞争继承了三个主要特点： ①Redis数据库完全在内存中，使用磁盘仅用于持久性； ②相比许多键值对数据存储，Redis拥有一套较为阅读全文

posted @ 2019-10-01 23:25 漠漠颜阅读(297) 评论(0) 推荐(0)

HBase单机和集群版部署

摘要： 1. HBase安装部署 HBase有两种部署模式：单机版模式和集群版模式。无论哪种模式，都需要配置HBase conf目录下的文件。至少，必须在conf/hbase-env.sh文件中添加JAVA_HOME。在hbase-env.sh这个文件中，可以设置HBase的环境变量，如堆内存大小、JVM的阅读全文

posted @ 2019-10-01 23:22 漠漠颜阅读(1104) 评论(0) 推荐(0)

HBase基本概念与基本使用

摘要： 1. HBase简介 1.1 什么是HBase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成阅读全文

posted @ 2019-10-01 23:19 漠漠颜阅读(386) 评论(0) 推荐(0)

Hadoop Shell命令字典

摘要：转载自：https://www.aboutyun.com//forum.php/?mod=viewthread&tid=6983&extra=page%3D1&page=1& 可以带着下面问题来阅读：1.chmod与chown的区别是什麽？2.cat将路径指定文件的内容输出到哪里？3.cp能否是不同阅读全文

posted @ 2019-10-01 23:03 漠漠颜阅读(350) 评论(0) 推荐(0)

kafka入门：简介、使用场景、设计原理、主要配置及集群搭建（转载）

摘要：转载自：https://www.aboutyun.com//forum.php/?mod=viewthread&tid=9341&extra=page%3D1&page=1& 问题导读： 1.zookeeper在kafka的作用是什么？ 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？阅读全文

posted @ 2019-10-01 22:58 漠漠颜阅读(433) 评论(0) 推荐(0)

kafka学习之路

摘要： Kafka学习之路（一）Kafka的简介 https://www.cnblogs.com/qingyunzong/p/9004509.html 目录一、简介 1.1　概述 1.2　消息系统介绍 1.3　点对点消息传递模式 1.4　发布-订阅消息传递模式二、Kafka的优点 2.1　解耦 2.2 阅读全文

posted @ 2019-10-01 22:53 漠漠颜阅读(188) 评论(0) 推荐(0)

Kafka详细原理

摘要： Kafka Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/ 阅读全文

posted @ 2019-10-01 22:48 漠漠颜阅读(395) 评论(0) 推荐(0)

Kafaka详细介绍机制原理

摘要： 1. kafka介绍 1.1. 主要功能根据官网的介绍，ApacheKafka®是一个分布式流媒体平台，它主要有3种功能： 1：It lets you publish and subscribe to streams of records.发布和订阅消息流，这个功能类似于消息队列，这也是kafka 阅读全文

posted @ 2019-10-01 22:44 漠漠颜阅读(4298) 评论(0) 推荐(3)

公告