大数据 - 随笔分类 - 李雷

impala通过jdbc写入效率低下优化

摘要：背景： Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overh 阅读全文

posted @ 2021-12-10 11:29 李雷阅读(761) 评论(0) 推荐(0)

impala表关联join优化1

摘要：基础环境： [cdh02.dongfeng.com:21000] default> show create table kudu_via_city_pdi10; Query: show create table kudu_via_city_pdi10 + + | result | + + | CRE 阅读全文

posted @ 2021-12-07 19:23 李雷阅读(1070) 评论(0) 推荐(0)

MySQL特定表全量、增量同步到消息队列-解决方案

摘要：1、原始需求既要同步原始全量数据，也要实时同步MySQL特定库的特定表增量数据，同时对应的修改、删除也要对应。数据同步不能有侵入性：不能更改业务程序，并且不能对业务侧有太大性能压力。应用场景：数据ETL同步、降低业务服务器压力。 2、解决方案 3、canal介绍、安装 canal是阿里巴巴旗下阅读全文

posted @ 2021-11-26 15:49 李雷阅读(593) 评论(0) 推荐(0)

windows个人笔记本压测hbase随机访问高并发压测

摘要：场景：根据车辆ID前缀匹配，获取全部数据，压测客户端在个人笔记本上，hbase部署在服务器上，有三个节点：16个cpu\64G内存程序 package org.hbase; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop. 阅读全文

posted @ 2021-11-09 18:40 李雷阅读(233) 评论(0) 推荐(0)

kudu+impala 27亿条数据的高并发海量分析压测

摘要：SQL：select a.tid,count(*),sum(std_mileage) from kudu_via_city_pdi3 as a where entry_time between "+entry_time_start+" and "+entry_time_end+" group by 阅读全文

posted @ 2021-11-09 15:57 李雷阅读(782) 评论(0) 推荐(0)

TDEngine和MySQL单表100万数据查询性能比较

摘要：TDEngine表结构 SQL语句程序 package com.test.df.tdengine.intd.jianshaozibiao; import java.sql.Connection; import java.sql.ResultSet; import java.sql.SQLExcep 阅读全文

posted @ 2021-11-08 19:10 李雷阅读(1288) 评论(0) 推荐(0)

doris-10亿条数据量，每天100万条，按照时间-天分组统计

摘要：select inday,sum(p1),count(*) from tj23 as a where inday between '"+sstart+"' and '"+send+"' group by inday limit 150个并发：Thread[Thread-40,5,main] >Mon 阅读全文

posted @ 2021-11-08 15:03 李雷阅读(965) 评论(0) 推荐(0)

doris-未预热查询性能验证

摘要：停止三个节点be 启动三个节点的be 执行语句：第一次执行：第二次执行，差别不大：阅读全文

posted @ 2021-11-08 14:42 李雷阅读(156) 评论(0) 推荐(0)

doris-根据车辆随机获取该车的所有数据并排序-高并发压测

摘要：select * from tj23 where vin='"+rand.nextInt(1000000)+"' order by inday desc limit 10 50并发：Thread[Thread-28,5,main] >Mon Nov 08 14:24:50 CST 2021 Mon 阅读全文

posted @ 2021-11-08 14:30 李雷阅读(464) 评论(0) 推荐(0)

doris-10亿数据和100万表join高并发测试

摘要：select count(*), sum(p1),vin from tj23 as a where EXISTS(select null from bak1 as b where a.vin = b.vin ) and inday between '2023-09-01' and '2023-12- 阅读全文

posted @ 2021-11-08 14:14 李雷阅读(964) 评论(0) 推荐(0)

doris-基于10亿数据量随机取3000万-700万高并发压测

摘要：select type1,sum(p1),count(*) from tj23 where inday between '2023-09-01' and '2023-09-07' group by type1 ;从10亿条随机获取3000万数据（一个月）：50个并发：Thread[Thread-18 阅读全文

posted @ 2021-11-08 12:49 李雷阅读(839) 评论(0) 推荐(0)

doris-10亿数据随机对30万数据查询高并发压测

摘要：SQL：select count(*),sum(p3),sum(p1),vin from tj23 where inday between '"+sstart+"' and '"+send+"' and type1="+rand.nextInt(100)+" group by vin order b 阅读全文

posted @ 2021-11-08 10:11 李雷阅读(591) 评论(0) 推荐(0)

基于10亿条数据的doris性能压测

摘要：硬件环境，三台服务器：表结构： CREATE TABLE IF NOT EXISTS tj23 ( vin varchar (30) not null, inday date not null, type1 int not null, type2 int not null, type3 int n 阅读全文

posted @ 2021-11-08 08:44 李雷阅读(2047) 评论(1) 推荐(0)

引用-各类数据库整体架构图汇总

摘要：采集并汇总GBase 8a，oceanbase，tidb，polardb-O,gaussdb200，clickhouse，flink，spark等数据库的整体架构图和对应说明，方便从整体上看数据库之间的差异。新搜集到的数据库材料，我放到了最前面。目录导航星环TDH 易鲸捷 EsgynDB 中兴阅读全文

posted @ 2021-11-06 12:16 李雷阅读(1317) 评论(0) 推荐(0)

百度数仓Palo-Doris并发压测性能

摘要：硬件环境表结构 CREATE TABLE IF NOT EXISTS tj9 ( vin varchar (30) not null, inday date not null, type1 int not null, type2 int not null, type3 int not null, 阅读全文

posted @ 2021-11-06 12:09 李雷阅读(982) 评论(0) 推荐(1)

引用-Phoenix介绍

摘要：1.简介 Phoenix是一个HBase框架，可以通过SQL的方式来操作HBase。 Phoenix是构建在HBase上的一个SQL层，是内嵌在HBase中的JDBC驱动，能够让用户使用标准的JDBC来操作HBase。 Phoenix使用JAVA语言进行编写，其查询引擎会将SQL查询语句转换成一个或阅读全文

posted @ 2021-11-06 10:39 李雷阅读(589) 评论(0) 推荐(0)

由于服务器不支持avx2指令集导致dorisdb部署运行be失败

摘要：表现的现象运行start_be.sh，没有任何响应，日志目录也没有数据进一步验证进入lib目录，运行./starrocks_be，报Illegal instruction (core dumped) 原因：服务器环境不支持avx2指令集通过“cat /proc/cpuinfo|grep av 阅读全文

posted @ 2021-11-05 11:38 李雷阅读(2148) 评论(0) 推荐(0)

Kudu+Impala介绍

摘要：概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储，在支持高并发低延迟kv查询的同时，还保持良好的Scan性能，该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的SQL解析引擎，其面对即席查询(Ad-Hoc Quer 阅读全文

posted @ 2021-11-04 18:23 李雷阅读(5318) 评论(0) 推荐(2)

大数据交互Hue

摘要：Hue Web应用的架构Hue 是一个Web应用，用来简化用户和Hadoop集群的交互。Hue技术架构，如下图所示，从总体上来讲，Hue应用采用的是B/S架构，该web应用的后台采用python编程语言别写的。大体上可以分为三层，分别是前端view层、Web服务层和Backend服务层。Web服务层阅读全文

posted @ 2021-11-04 18:05 李雷阅读(805) 评论(0) 推荐(0)

Kylin、druid、presto、impala四种即席查询对比

摘要：一、什么是即席查询即席查询是用户根据自己的需求，灵活的选择查询条件，系统根据用户的选择生成相应的统计报表。普通查应用查询是定制开发的，即席查询是用户自定义查询条件理解：快速的执行自定义SQL（可能无法提前运算和预测）重点关注：数据存储格式和架构二、Kylin 1、定义：Apache kyli 阅读全文

posted @ 2021-11-04 17:46 李雷阅读(2753) 评论(0) 推荐(0)

李雷

随笔分类 - 大数据