05 2021 档案
摘要:ETL工具开发目标是一款通用数据迁移工具,可扩充迁移的源数据类型,同时可以扩充目标端存储类型,是一款可以不断扩展功能的、通用的数据迁移工具。工具具有数据映射 过滤、默认值等插件可配置使用;提供业务处理插件接口,可供定制化业务处理;对大量数据进行分批迁移的功能;批量任务迁移时支持断点续传功能等。 3.
阅读全文
摘要:使用zookeeper搭建分布式应用服务 一 背景 传统的应用是部署在单台服务器上的,随着业务的扩大,单机引用变得越来越难以满足使用要求。通常应用部署在单台服务器上面临的第一个问题是,随着业务的扩大,更多的用户使用应用服务,服务的性能、存储会面临很大挑战。对于一个对性能要求很高的业务应用,增大带宽、
阅读全文
摘要:1、开启布隆过滤器 布隆过滤器用于判断一个元素是否在集合中 有一定的误判率和删除困难 如果使用布隆过滤器判断一个元素在集合中,那它可能不在 但如果判断一个元素不在集合中,那它肯定不在 布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它
阅读全文
摘要:1、设置scan缓存 scan.setCaching(1000); 定义一次交互从服务端传输到客户端的行数 2、显示的指定列 scan.addColumn(cf,column) 只获取需要的列,减少传输的数据量,减少IO的消耗 3、使用完resultScanner后关闭,否则可能出现一段时间内服务端
阅读全文
摘要:1、关闭WAL日志 在put数据api中关闭WAL 2、设置AutoFlush 3、预创建Region 4、延迟WAL刷新 5、通过HTablePool写入
阅读全文
摘要:zkclient Zookeeper客户端提供了基本的操作,比如,创建会话、创建节点、读取节点、更新数据、删除节点和检查节点是否存在等。但对于开发人员来说,Zookeeper提供的基本操纵还是有一些不足之处。本篇博客就聊聊这些不足之处和两款开源框架ZKClient和Curator。 Zookeepe
阅读全文
摘要:本篇文档使用kafka版本为:0.9.0.0 问题1、在现场项目中,kafka连接正常一直无数据? 1)通常是确认配置是否正确,包含任务配置,ip端口号; 2)查看topic offset:是否有新数据进来,数据是否被消费掉了, 3)然后检查kafka服务是否正常,查看服务是否有节点挂掉,topic
阅读全文
摘要:本篇文章主要记录一下Spark如何读写Hbase数据问题 1、Spark如何读取Hbase数据 spark原生API读取Hbase数据时,是使用一个partition加载一个Region的数据的。 此方式可能产生问题: 1)单个region太大,而spark每个partition资源是配置分配的,一
阅读全文
摘要:三种时区表示方式,LocalDate转成字符串日期和ts的方法 LocalDateTime localDateTime = null; //时区写法1: String timezone = "Asia/Shanghai"; //###### 字符串时间转ts ZoneId zoneId = Zone
阅读全文
摘要:问题描述: HBASE表的管理以REGION分区为核心,通常面临如下几个问题: 1) 数据如何存储到指定的region分区,即rowkey设计,region splitkey设计 2)设计的splitkey是否可以解决热点问题 3)设计的splitkey是否可以解决均匀分布,避免自动分裂的问题 4)
阅读全文

浙公网安备 33010602011771号