随笔分类 -  大数据

impala通过jdbc写入效率低下优化
摘要:背景: Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overh 阅读全文

posted @ 2021-12-10 11:29 李雷 阅读(761) 评论(0) 推荐(0)

impala表关联join优化1
摘要:基础环境: [cdh02.dongfeng.com:21000] default> show create table kudu_via_city_pdi10; Query: show create table kudu_via_city_pdi10 + + | result | + + | CRE 阅读全文

posted @ 2021-12-07 19:23 李雷 阅读(1070) 评论(0) 推荐(0)

MySQL特定表全量、增量同步到消息队列-解决方案
摘要:1、原始需求 既要同步原始全量数据,也要实时同步MySQL特定库的特定表增量数据,同时对应的修改、删除也要对应。 数据同步不能有侵入性:不能更改业务程序,并且不能对业务侧有太大性能压力。 应用场景:数据ETL同步、降低业务服务器压力。 2、解决方案 3、canal介绍、安装 canal是阿里巴巴旗下 阅读全文

posted @ 2021-11-26 15:49 李雷 阅读(593) 评论(0) 推荐(0)

windows个人笔记本压测hbase随机访问高并发压测
摘要:场景:根据车辆ID前缀匹配,获取全部数据,压测客户端在个人笔记本上,hbase部署在服务器上,有三个节点:16个cpu\64G内存 程序 package org.hbase; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop. 阅读全文

posted @ 2021-11-09 18:40 李雷 阅读(233) 评论(0) 推荐(0)

kudu+impala 27亿条数据的高并发海量分析压测
摘要:SQL:select a.tid,count(*),sum(std_mileage) from kudu_via_city_pdi3 as a where entry_time between "+entry_time_start+" and "+entry_time_end+" group by 阅读全文

posted @ 2021-11-09 15:57 李雷 阅读(782) 评论(0) 推荐(0)

TDEngine和MySQL单表100万数据查询性能比较
摘要:TDEngine表结构 SQL语句 程序 package com.test.df.tdengine.intd.jianshaozibiao; import java.sql.Connection; import java.sql.ResultSet; import java.sql.SQLExcep 阅读全文

posted @ 2021-11-08 19:10 李雷 阅读(1288) 评论(0) 推荐(0)

doris-10亿条数据量,每天100万条,按照时间-天分组统计
摘要:select inday,sum(p1),count(*) from tj23 as a where inday between '"+sstart+"' and '"+send+"' group by inday limit 150个并发:Thread[Thread-40,5,main] >Mon 阅读全文

posted @ 2021-11-08 15:03 李雷 阅读(965) 评论(0) 推荐(0)

doris-未预热查询性能验证
摘要:停止三个节点be 启动三个节点的be 执行语句: 第一次执行: 第二次执行,差别不大: 阅读全文

posted @ 2021-11-08 14:42 李雷 阅读(156) 评论(0) 推荐(0)

doris-根据车辆随机获取该车的所有数据并排序-高并发压测
摘要:select * from tj23 where vin='"+rand.nextInt(1000000)+"' order by inday desc limit 10 50并发:Thread[Thread-28,5,main] >Mon Nov 08 14:24:50 CST 2021 Mon 阅读全文

posted @ 2021-11-08 14:30 李雷 阅读(464) 评论(0) 推荐(0)

doris-10亿数据和100万表join高并发测试
摘要:select count(*), sum(p1),vin from tj23 as a where EXISTS(select null from bak1 as b where a.vin = b.vin ) and inday between '2023-09-01' and '2023-12- 阅读全文

posted @ 2021-11-08 14:14 李雷 阅读(964) 评论(0) 推荐(0)

doris-基于10亿数据量随机取3000万-700万高并发压测
摘要:select type1,sum(p1),count(*) from tj23 where inday between '2023-09-01' and '2023-09-07' group by type1 ;从10亿条随机获取3000万数据(一个月):50个并发:Thread[Thread-18 阅读全文

posted @ 2021-11-08 12:49 李雷 阅读(839) 评论(0) 推荐(0)

doris-10亿数据随机对30万数据查询高并发压测
摘要:SQL:select count(*),sum(p3),sum(p1),vin from tj23 where inday between '"+sstart+"' and '"+send+"' and type1="+rand.nextInt(100)+" group by vin order b 阅读全文

posted @ 2021-11-08 10:11 李雷 阅读(591) 评论(0) 推荐(0)

基于10亿条数据的doris性能压测
摘要:硬件环境,三台服务器: 表结构: CREATE TABLE IF NOT EXISTS tj23 ( vin varchar (30) not null, inday date not null, type1 int not null, type2 int not null, type3 int n 阅读全文

posted @ 2021-11-08 08:44 李雷 阅读(2047) 评论(1) 推荐(0)

引用-各类数据库整体架构图汇总
摘要:采集并汇总GBase 8a,oceanbase,tidb,polardb-O,gaussdb200,clickhouse,flink,spark等数据库的整体架构图和对应说明,方便从整体上看数据库之间的差异。 新搜集到的数据库材料,我放到了最前面。 目录导航 星环TDH 易鲸捷 EsgynDB 中兴 阅读全文

posted @ 2021-11-06 12:16 李雷 阅读(1317) 评论(0) 推荐(0)

百度数仓Palo-Doris并发压测性能
摘要:硬件环境 表结构 CREATE TABLE IF NOT EXISTS tj9 ( vin varchar (30) not null, inday date not null, type1 int not null, type2 int not null, type3 int not null, 阅读全文

posted @ 2021-11-06 12:09 李雷 阅读(982) 评论(0) 推荐(1)

引用-Phoenix介绍
摘要:1.简介 Phoenix是一个HBase框架,可以通过SQL的方式来操作HBase。 Phoenix是构建在HBase上的一个SQL层,是内嵌在HBase中的JDBC驱动,能够让用户使用标准的JDBC来操作HBase。 Phoenix使用JAVA语言进行编写,其查询引擎会将SQL查询语句转换成一个或 阅读全文

posted @ 2021-11-06 10:39 李雷 阅读(589) 评论(0) 推荐(0)

由于服务器不支持avx2指令集导致dorisdb部署运行be失败
摘要:表现的现象 运行start_be.sh,没有任何响应,日志目录也没有数据 进一步验证 进入lib目录,运行./starrocks_be,报Illegal instruction (core dumped) 原因:服务器环境不支持avx2指令集 通过“cat /proc/cpuinfo|grep av 阅读全文

posted @ 2021-11-05 11:38 李雷 阅读(2148) 评论(0) 推荐(0)

Kudu+Impala介绍
摘要:概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的SQL解析引擎,其面对即席查询(Ad-Hoc Quer 阅读全文

posted @ 2021-11-04 18:23 李雷 阅读(5318) 评论(0) 推荐(2)

大数据交互Hue
摘要:Hue Web应用的架构Hue 是一个Web应用,用来简化用户和Hadoop集群的交互。Hue技术架构,如下图所示,从总体上来讲,Hue应用采用的是B/S架构,该web应用的后台采用python编程语言别写的。大体上可以分为三层,分别是前端view层、Web服务层和Backend服务层。Web服务层 阅读全文

posted @ 2021-11-04 18:05 李雷 阅读(805) 评论(0) 推荐(0)

Kylin、druid、presto、impala四种即席查询对比
摘要:一、什么是即席查询 即席查询是用户根据自己的需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表。普通查应用查询是定制开发的,即席查询是用户自定义查询条件 理解:快速的执行自定义SQL(可能无法提前运算和预测) 重点关注:数据存储格式和架构 二、Kylin 1、定义:Apache kyli 阅读全文

posted @ 2021-11-04 17:46 李雷 阅读(2753) 评论(0) 推荐(0)

导航