摘要: @(RDD) 1、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 弹性 存储的弹性:内存与磁盘的自动切换; 容错的弹性: 阅读全文
posted @ 2022-01-05 15:41 莫尼莫尼 阅读(321) 评论(0) 推荐(0) 编辑
摘要: @(flume) flume简介 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。flume的数据流由**事件(Even 阅读全文
posted @ 2021-12-09 21:54 莫尼莫尼 阅读(364) 评论(0) 推荐(0) 编辑
摘要: @(DataX) DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之 阅读全文
posted @ 2021-12-08 15:39 莫尼莫尼 阅读(271) 评论(0) 推荐(0) 编辑
摘要: @(FlinkX) FlinkX的安装与简单使用 @ FlinkX的安装 安装unzip:yum install unzip 1、上传并解压 unzip flinkx-1.10.zip -d /usr/local/soft/ 2、配置环境变量 3、给bin/flinkx这个文件加上执行权限 chmo 阅读全文
posted @ 2021-12-07 22:05 莫尼莫尼 阅读(334) 评论(0) 推荐(0) 编辑
摘要: (hbase) hbase过滤器 过滤器可以根据列簇、列、版本等更多条件进行过滤。 hbase三维有序(行键、列、版本有序) 过滤器的参数 使用过滤至少需要需要两类参数:一类是抽象的操作符,一类是比较器。 代码及资源: https://gitee.com/yu-min-guo/hbase-test 阅读全文
posted @ 2021-12-06 22:16 莫尼莫尼 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 数据集成/采集/同步工具 (数据集成工具—Sqoop) Sqoop简介 sqoop将关系型数据库(mysql、oracle等)数据与hadoop数据进行转换的工具。 sqoop1.4.x与sqoop1.99.x完全不兼容 Sqoop安装 安装包资源主页自取 1、上传并解压 tar -zxvf sqo 阅读全文
posted @ 2021-12-06 21:28 莫尼莫尼 阅读(290) 评论(0) 推荐(0) 编辑
摘要: Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。 Pho 阅读全文
posted @ 2021-12-06 14:58 莫尼莫尼 阅读(129) 评论(0) 推荐(0) 编辑
摘要: (hbase参数调优) HBase参数调优 hbase.regionserver.handler.count 该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁 阅读全文
posted @ 2021-12-05 15:42 莫尼莫尼 阅读(934) 评论(0) 推荐(0) 编辑
摘要: (hbase调优) 一、phoenix调优 1.建立索引超时,查询超时 修改配置文件,hbase-site.xml 两个位置 /usr/local/soft/phoenix-4.15.0/bin /usr/local/soft/hbase-1.4.6/conf/ 所有节点 增加配置 <propert 阅读全文
posted @ 2021-12-05 14:45 莫尼莫尼 阅读(106) 评论(0) 推荐(0) 编辑
摘要: (HBase) HBase简介 hbase是高可靠性、高性能、面行列、可伸缩、实时读写的NoSql分布式数据库。 hbase主要存储非结构化/半结构化的松散数据 hbase数据模型 1.NameSpace 命名空间,每个命名空间下有多个表。hbase自带两个命名空间,分别为hbase与default 阅读全文
posted @ 2021-12-02 13:41 莫尼莫尼 阅读(88) 评论(0) 推荐(0) 编辑