随笔分类 - 大数据
摘要:一般大数据的工具包都是tar包,直接下载下来,然后进行解压缩,修改配置文件,最后执行对应的sh文件。 1.phoenix phoenix:JAVA语言编写,查询引擎会将SQL查询语句转化成一个或多个HBase Scanner,且并行执行生成标准的JDBC结果集。phoenix使用标准JDBC API
阅读全文
摘要:公司是大数据公司,其中有一块业务主要是大数据的相关内容。我们测试部门也有同事专门对针对这个平台进行测试。由于我们公司有一个平台是做数治工坊的相关内容,其中从元数据管理、流程管理、配置管理、运维监控,整个主流程的了解,加深了对大数据的了解。经过同事的讲解和培训,初步了解了什么是元数据管理、流程管理、调
阅读全文
摘要:KafKa的基本认识,写的很好的一篇博客:https://www.cnblogs.com/sujing/p/10960832.html 问题:1、kafka是什么?Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,具有高性能、持久化、多副本备份、横向扩展
阅读全文
摘要:1、Hbase集群的高可用性与伸缩性 HBase可以实现对Regionserver的监控,当个别Regionserver不可访问时,将其负责的分区分给其他Regionsever,其转移过程较快,因为只需要将分区的相关信息转移。Hlog和表中数据实际存储在HDFS上,本身具有多副本机制容错。 Mast
阅读全文
摘要:1 部署HDFS HDFS的基本操作可以分为集群管理和文件系统操作两种类型: 集群管理:包括Namenodede 的格式化、集群的启动和停止、集群信息查看等。 文件系统:包括对目录、文件和权限等内容的操作。 HDFS中的命令主要在sbin和bin目录下[一般要进行环境变量的设置]: sbin:集群控
阅读全文
摘要:Spark涉及的几个概念:RDD:Resilient Distributed Dataset(弹性分布数据集)、DAG:Direct Acyclic Graph(有向无环图)、SparkContext、Transformations、Actions。 1 Spark简介 1.1 什么是spark S
阅读全文
摘要:hadoop最主要的2个基本的内容要了解。上次了解了一下HDFS,本章节主要是了解了MapReduce的一些基本原理。 MapReduce文件系统:它是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce将分为两个部分:Map(映射)和Reduce(归约)。 当你向mapred
阅读全文
摘要:1、Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式 存储结构主要包括:数据库、文件、表、试图 Hive默认可以直接加载文本文件(TextFile),还支持sequence file 创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据
阅读全文
摘要:安装Hive && mysql (1)安装Hive Hive安装所需要的依赖(安装Hive前必须先安装jdk、hadoop) 1)jdk1.6以上 2)Hadoop要启动 未安装jdk、hadoop可参考文章:https://www.cnblogs.com/wendyw/p/11317021.htm
阅读全文
摘要:Hive是什么? Hive是基于Hadoop之上的数据仓库; Hive是一种可以存储、查询、分析存储在hadoop中的大规模数据 Hive定义了简单的类SQL查询语言,成为HQL,它允许熟悉SQL的用户查询数据 允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的m
阅读全文
摘要:1 HDFS 架构 HDFS作为分布式文件管理系统,Hadoop的基础。HDFS整体架构包括:NameNode、DataNode、Secondary NameNode,如图: HDFS采用主从式的分布式架构。 Namenode:是主节点,负责存储文件的元数据,包括目录、文件、权限等信息和文件分块、副
阅读全文
摘要:1 Hadoop环境搭建 hadoop 的6个核心配置文件的作用: core-site.xml:核心配置文件,主要定义了我们文件访问的格式hdfs://。 hadoop-env.sh:主要配置我们的java路径。 hdfs-site.xml:主要定义配置我们的hdfs的相关配置。 mapred-si
阅读全文
摘要:在网络环境方面,作为分布式系统,Hadoop基于TCP/IP进行节点间的通信和传输。 在数据传输方面,广泛应用HTTP实现。 在监控、通知方面,Hadoop等分布式大数据软件则广泛使用异步消息队列等机制。 1. hadoop的概念及其发展历程 Hadoop是Apache开源组织的一个分布式计算开源框
阅读全文

浙公网安备 33010602011771号