大数据 - 第19页 - 网站分类

Apache DolphinScheduler 3.0.6 发布，或将是最后一个 3.0.X 版本

Apache DolphinScheduler 于近日发布了 3.0.6 版本，主要针对 3.0.5 重要 bug 进行修复。如果之后没有发现重大问题，3.0.6 将会是 3.0.x 最后一个版本。 Bug修复 Master 重新连接 zk 后 slot 没有正常更新 #14014 父工作流失败时 ...

理论+实操｜一文掌握 RFM 模型在客户数据洞察平台内的落地实战

确定用户价值是整个[用户运营](https://www.dtstack.com/easydigit/userinsight?src=szsm)过程中极其重要的一环。传统的工作流程中，业务人员向数据部门提出数据需求，等待返回结果后再进行价值分析是主要的准备工作，但这个过程非常耗时。为了提高[工作效率] ...

Doris(五) -- 数据的导入导出

# 数据导入 ## 使用 Insert 方式同步数据用户可以通过 MySQL 协议，使用 INSERT 语句进行数据导入 INSERT 语句的使用方式和 MySQL 等数据库中 INSERT 语句的使用方式类似。 INSERT 语句支持以下两种语法： ```SQL INSERT INTO tabl ...

用一杯星巴克的钱，训练自己私有化的ChatGPT

![file](https://img2023.cnblogs.com/other/2685289/202305/2685289-20230530115137903-2141604303.png) > 文章摘要：用一杯星巴克的钱，自己动手2小时的时间，就可以拥有自己训练的开源大模型，并可以根据不同的 ...

Doris(四) -- Rollup和物化视图

# Rollup ROLLUP 在多维分析中是“上卷”的意思，即将数据按某种指定的粒度进行进一步聚合。通过建表语句创建出来的表称为 Base 表（Base Table,基表）在 Base 表之上，我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的，并且在 ...

快速上手kettle(二)小试牛刀

[TOC](快速上手kettle二小试牛刀) ### 一、前言上一期中大概介绍了下kettle，并已经把kettle下载安装完了。这一期我们就来简单体验下kettle怎么进行数据转换的。 ### 二、两个小目标我们这里呢就以两个小案例来体验下kettle - 将csv文件通过kettle ...

Doris(三) -- 索引

# 索引索引用于帮助快速过滤或查找数据。目前 Doris 主要支持两类索引： • 内建的智能索引：包括前缀索引和 ZoneMap 索引。 • 用户创建的二级索引：包括 Bloom Filter 索引和 Bitmap倒排索引。其中 ZoneMap 索引是在列存格式上，对每一列自动维护的索引信息 ...

Doris(二) -- 基本概念和数据表模型

# 字段类型 | 数据类型 | 字节 | 范围 | | | | | |TINYINT|1 字节|-2^7 + 1 ~ 2^7 - 1| |SMALLINT|2 字节|-2^15 + 1 ~ 2^15 - 1| |INT|4 字节|-2^31 + 1 ~ 2^31 - 1| |BIGINT|8 字节| ...

Doris(一) -- 简介和安装

## Doris 简介 ### Doris 概述 Apache Doris 由百度大数据部研发 (之前叫百度 Palo，2018 年贡献到 Apache 社区后，更名为 Doris), 在百度内部，有超过 200 个产品线在使用，部署机器超过 1000 台，单一业务最大可达到上百 TB。 Apach ...

一文教会你用Apache SeaTunnel Zeta离线把数据从MySQL同步到StarRocks

我们介绍一下SeaTunnel支持的第一个同步场景：离线批量同步。顾名思意，离线批量同步需要用户定义好SeaTunnel JobConfig，选择批处理模式，作业启动后开始同步数据，当数据同步完成后作业完成退出。 ...

快速上手kettle（一）壶之简介

**快速上手kettle系列文章目录** [快速上手kettle（一）：壶之简介](https://www.cnblogs.com/xiezhr/p/17433313.html) [快速上手kettle（二）：Kettle初体验](https://www.cnblogs.com/xiezhr/p/1 ...

Apache Hudi 在袋鼠云数据湖平台的设计与实践

在大数据处理中，[实时数据分析](https://www.dtstack.com/dtengine/easylake?src=szsm)是一个重要的需求。随着数据量的不断增长，对于实时分析的挑战也在不断加大，传统的批处理方式已经不能满足[实时数据处理](https://www.dtstack.com ...

es 笔记二之基础查询

> 本文首发于公众号：Hunter后端 > 原文链接：[es笔记二之基础查询](https://mp.weixin.qq.com/s/VW0QCuW-ONEH-TRB2WF4GQ) 这一篇笔记介绍 es 的基础查询。基础查询包括很多，比如排序，类似数据库 limit 的操作，like 操作，与或非 ...

技术干货｜如何利用 ChunJun 实现数据离线同步？

ChunJun 是⼀款稳定、易⽤、⾼效、批流⼀体的数据集成框架，基于计算引擎 Flink 实现多种异构数据源之间的数据同步与计算。ChunJun 可以把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从⽽为企业提供全⾯的数据共享，目前已在上千家公司部署且稳定运⾏。在之前，我们曾经为大家介 ...

es笔记一之es安装与介绍

本文首发于公众号：Hunter后端原文链接：es笔记一之es安装与介绍首先介绍一下 es，全名为 Elasticsearch，它定义上不是一种数据库，是一种搜索引擎。我们可以把海量数据都放到 es 里然后提供搜索操作，但是 MySQL 也同样可以提供搜索，为什么要用 es 呢？一个是因为它搜 ...

Greenplum数据库中segment故障检测

1.Greenplum数据库中segment故障检测 1.1概述 Greenplum数据库服务器（Postgres）有一个子进程，该子进程为ftsprobe，主要作用是处理故障检测。 ftsprobe 监视Greenplum数据库阵列，它以可以配置的间隔连接并扫描所有segment和数据库进程。如 ...

提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

在企业级应用中，数据的安全性和隐私保护是极其重要的。Spark 作为数栈底层计算引擎之一，必须确保数据只能被授权的人员访问，避免出现数据泄露和滥用的情况。为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性，数栈基于 Apache Ranger 实现了 Spark SQL 对数据 ...

hive 从入门到精通

hive入门到精通 hive部署启动Hadoop # 启动hadoop start-all.sh # 检查hadoop进程 jps # 检查各端口 netstat -aplnt | grep java 检查MySQL是否启动成功 ps -aux | grep mysql netstat -apln ...

ClickHouse笔记: Ubuntu/Centos下的安装, 配置和用户管理

ClickHouse 属于 OLAP 数据库, 与 OLTP (Transaction Process) 相比, 注重数据分析, 重点在查询的性能. 在业务系统中, 往往使用 OLTP 数据库做业务数据存储, 用 OLAP 数据库做查询分析, 在一些场景下ClickHouse可以取代ES(Elast... ...

Apache Arrow DataFusion原理与架构

> 本篇主要介绍了一种使用Rust语言编写的查询引擎——DataFusion，其使用了基于Arrow格式的内存模型，结合Rust语言本身的优势，达成了非常优秀的性能指标 DataFusion是一个查询引擎而非数据库，因此其本身不具备存储数据的能力。但正因为不依赖底层存储的格式，使其成为了一个灵活可扩 ...