2021 年 5月随笔档案 - life_start

服务设计-ETL-核心框架

摘要：ETL工具开发目标是一款通用数据迁移工具，可扩充迁移的源数据类型，同时可以扩充目标端存储类型，是一款可以不断扩展功能的、通用的数据迁移工具。工具具有数据映射过滤、默认值等插件可配置使用；提供业务处理插件接口，可供定制化业务处理；对大量数据进行分批迁移的功能；批量任务迁移时支持断点续传功能等。 3. 阅读全文

posted @ 2021-05-20 16:15 life_start 阅读(1155) 评论(0) 推荐(0)

zookeeper-服务-应用

摘要：使用zookeeper搭建分布式应用服务一背景传统的应用是部署在单台服务器上的，随着业务的扩大，单机引用变得越来越难以满足使用要求。通常应用部署在单台服务器上面临的第一个问题是，随着业务的扩大，更多的用户使用应用服务，服务的性能、存储会面临很大挑战。对于一个对性能要求很高的业务应用，增大带宽、阅读全文

posted @ 2021-05-20 16:07 life_start 阅读(106) 评论(0) 推荐(0)

HBASE-表设计-优化

摘要：1、开启布隆过滤器布隆过滤器用于判断一个元素是否在集合中有一定的误判率和删除困难如果使用布隆过滤器判断一个元素在集合中，那它可能不在但如果判断一个元素不在集合中，那它肯定不在布隆过滤器［1］（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它阅读全文

posted @ 2021-05-11 16:38 life_start 阅读(271) 评论(0) 推荐(0)

HBASE-读取数据-优化

摘要：1、设置scan缓存 scan.setCaching(1000); 定义一次交互从服务端传输到客户端的行数 2、显示的指定列 scan.addColumn(cf,column) 只获取需要的列，减少传输的数据量，减少IO的消耗 3、使用完resultScanner后关闭，否则可能出现一段时间内服务端阅读全文

posted @ 2021-05-11 16:35 life_start 阅读(261) 评论(0) 推荐(0)

HBASE-数据写入-优化

摘要：1、关闭WAL日志在put数据api中关闭WAL 2、设置AutoFlush 3、预创建Region 4、延迟WAL刷新 5、通过HTablePool写入阅读全文

posted @ 2021-05-11 16:34 life_start 阅读(116) 评论(0) 推荐(0)

Zookeeper-客户端-zkclient-curator

摘要：zkclient Zookeeper客户端提供了基本的操作，比如，创建会话、创建节点、读取节点、更新数据、删除节点和检查节点是否存在等。但对于开发人员来说，Zookeeper提供的基本操纵还是有一些不足之处。本篇博客就聊聊这些不足之处和两款开源框架ZKClient和Curator。 Zookeepe 阅读全文

posted @ 2021-05-11 16:33 life_start 阅读(165) 评论(0) 推荐(0)

KAFKA-使用问题

摘要：本篇文档使用kafka版本为：0.9.0.0 问题1、在现场项目中，kafka连接正常一直无数据？ 1）通常是确认配置是否正确，包含任务配置，ip端口号； 2）查看topic offset：是否有新数据进来，数据是否被消费掉了， 3）然后检查kafka服务是否正常，查看服务是否有节点挂掉，topic 阅读全文

posted @ 2021-05-11 16:31 life_start 阅读(1579) 评论(0) 推荐(0)

HBASE-Spark操作hbase数据-思考

摘要：本篇文章主要记录一下Spark如何读写Hbase数据问题 1、Spark如何读取Hbase数据 spark原生API读取Hbase数据时，是使用一个partition加载一个Region的数据的。此方式可能产生问题： 1）单个region太大，而spark每个partition资源是配置分配的，一阅读全文

posted @ 2021-05-11 16:26 life_start 阅读(649) 评论(0) 推荐(0)

JAVA-日期处理-LocalDate-时区

摘要：三种时区表示方式，LocalDate转成字符串日期和ts的方法 LocalDateTime localDateTime = null; //时区写法1： String timezone = "Asia/Shanghai"; //###### 字符串时间转ts ZoneId zoneId = Zone 阅读全文

posted @ 2021-05-08 16:44 life_start 阅读(3581) 评论(0) 推荐(0)

HBASE-使用问题-split region

摘要：问题描述： HBASE表的管理以REGION分区为核心，通常面临如下几个问题： 1）数据如何存储到指定的region分区，即rowkey设计，region splitkey设计 2）设计的splitkey是否可以解决热点问题 3）设计的splitkey是否可以解决均匀分布，避免自动分裂的问题 4）阅读全文

posted @ 2021-05-08 16:24 life_start 阅读(733) 评论(0) 推荐(0)

life_start

05 2021 档案

公告