大数据 - 随笔分类 - wendyw

HIVE、HBASE和phoenix的简单认识

摘要：一般大数据的工具包都是tar包，直接下载下来，然后进行解压缩，修改配置文件，最后执行对应的sh文件。 1.phoenix phoenix:JAVA语言编写，查询引擎会将SQL查询语句转化成一个或多个HBase Scanner，且并行执行生成标准的JDBC结果集。phoenix使用标准JDBC API 阅读全文

posted @ 2021-04-07 21:40 wendyw 阅读(1315) 评论(0) 推荐(0)

元数据管理和数据采集

摘要：公司是大数据公司，其中有一块业务主要是大数据的相关内容。我们测试部门也有同事专门对针对这个平台进行测试。由于我们公司有一个平台是做数治工坊的相关内容，其中从元数据管理、流程管理、配置管理、运维监控，整个主流程的了解，加深了对大数据的了解。经过同事的讲解和培训，初步了解了什么是元数据管理、流程管理、调阅读全文

posted @ 2021-03-06 13:11 wendyw 阅读(3715) 评论(0) 推荐(0)

KafKa简介和利用docker配置kafka集群及开发环境

摘要：KafKa的基本认识,写的很好的一篇博客：https://www.cnblogs.com/sujing/p/10960832.html 问题：1、kafka是什么？Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据，具有高性能、持久化、多副本备份、横向扩展阅读全文

posted @ 2020-06-30 23:10 wendyw 阅读(1427) 评论(0) 推荐(0)

Zookeeper的基本原理(zk架构、zk存储结构、watch机制、独立安装zk、集群间同步复制)

摘要：1、Hbase集群的高可用性与伸缩性 HBase可以实现对Regionserver的监控，当个别Regionserver不可访问时，将其负责的分区分给其他Regionsever，其转移过程较快，因为只需要将分区的相关信息转移。Hlog和表中数据实际存储在HDFS上，本身具有多副本机制容错。 Mast 阅读全文

posted @ 2020-05-23 19:30 wendyw 阅读(3145) 评论(0) 推荐(0)

分布式文件系统HDFS-部署和配置

摘要：1 部署HDFS HDFS的基本操作可以分为集群管理和文件系统操作两种类型：集群管理：包括Namenodede 的格式化、集群的启动和停止、集群信息查看等。文件系统：包括对目录、文件和权限等内容的操作。 HDFS中的命令主要在sbin和bin目录下[一般要进行环境变量的设置]： sbin:集群控阅读全文

posted @ 2020-05-12 08:28 wendyw 阅读(8099) 评论(0) 推荐(0)

分布式计算框架-Spark(spark环境搭建、生态环境、运行架构）

摘要：Spark涉及的几个概念：RDD:Resilient Distributed Dataset(弹性分布数据集)、DAG:Direct Acyclic Graph(有向无环图)、SparkContext、Transformations、Actions。 1 Spark简介 1.1 什么是spark S 阅读全文

posted @ 2020-05-10 23:04 wendyw 阅读(2126) 评论(0) 推荐(0)

分布式计算框架-MapReduce 基本原理（MP用于分布式计算）

摘要：hadoop最主要的2个基本的内容要了解。上次了解了一下HDFS，本章节主要是了解了MapReduce的一些基本原理。 MapReduce文件系统：它是一种编程模型，用于大规模数据集（大于1TB）的并行运算。MapReduce将分为两个部分：Map（映射）和Reduce（归约）。当你向mapred 阅读全文

posted @ 2019-09-17 07:49 wendyw 阅读(1477) 评论(0) 推荐(0)

Hive 表操作（HIVE的数据存储、数据库、表、分区、分桶）

摘要：1、Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式存储结构主要包括：数据库、文件、表、试图 Hive默认可以直接加载文本文件(TextFile),还支持sequence file 创建表时，指定Hive数据的列分隔符与行分隔符，Hive即可解析数据阅读全文

posted @ 2019-08-23 20:06 wendyw 阅读(5145) 评论(0) 推荐(0)

Hive 安装 & Mysql 安装

摘要：安装Hive && mysql (1)安装Hive Hive安装所需要的依赖（安装Hive前必须先安装jdk、hadoop） 1）jdk1.6以上 2）Hadoop要启动未安装jdk、hadoop可参考文章：https://www.cnblogs.com/wendyw/p/11317021.htm 阅读全文

posted @ 2019-08-21 18:16 wendyw 阅读(1337) 评论(0) 推荐(0)

Hive基本原理及配置Mysql作为Hive的默认数据库

摘要：Hive是什么？ Hive是基于Hadoop之上的数据仓库； Hive是一种可以存储、查询、分析存储在hadoop中的大规模数据 Hive定义了简单的类SQL查询语言，成为HQL,它允许熟悉SQL的用户查询数据允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的m 阅读全文

posted @ 2019-08-21 18:15 wendyw 阅读(3575) 评论(0) 推荐(0)

分布式存储系统-HDFS

摘要：1 HDFS 架构 HDFS作为分布式文件管理系统，Hadoop的基础。HDFS整体架构包括：NameNode、DataNode、Secondary NameNode，如图： HDFS采用主从式的分布式架构。 Namenode:是主节点，负责存储文件的元数据，包括目录、文件、权限等信息和文件分块、副阅读全文

posted @ 2019-08-15 18:08 wendyw 阅读(3236) 评论(0) 推荐(0)

centos 6.4-linux环境配置，安装hadoop-1.1.2（hadoop伪分布环境配置）

摘要：1 Hadoop环境搭建 hadoop 的6个核心配置文件的作用： core-site.xml：核心配置文件，主要定义了我们文件访问的格式hdfs://。 hadoop-env.sh：主要配置我们的java路径。 hdfs-site.xml：主要定义配置我们的hdfs的相关配置。 mapred-si 阅读全文

posted @ 2019-08-11 13:01 wendyw 阅读(483) 评论(0) 推荐(0)

Hadoop 中HDFS、MapReduce体系结构

摘要：在网络环境方面，作为分布式系统，Hadoop基于TCP/IP进行节点间的通信和传输。在数据传输方面，广泛应用HTTP实现。在监控、通知方面，Hadoop等分布式大数据软件则广泛使用异步消息队列等机制。 1. hadoop的概念及其发展历程 Hadoop是Apache开源组织的一个分布式计算开源框阅读全文

posted @ 2019-08-07 13:30 wendyw 阅读(1304) 评论(0) 推荐(0)

折翼の翅膀

随笔分类 - 大数据

公告