大数据技术栈 - 随笔分类(第2页) - kris12

DorisDB | 使用

摘要：1. 建表字段类型 tinyint 1字节范围：-2^7 + 1 ~ 2^7 - 1 smallint 2字节范围：-2^15 + 1 ~ 2^15 - 1 bigint 8字节范围：-2^63 + 1 ~ 2^63 - 1 largeint 16字节范围：-2^127 + 1 ~ 2^1 阅读全文

posted @ 2021-04-13 23:08 kris12 阅读(4378) 评论(0) 推荐(0)

大数据应用| 技术的学习| 社区的参与

摘要：1. 大数据应用大数据技术，其实起源于 Google 在 2004 年前后发表的三篇论文，也就是我们经常听到的“三驾马车”，分别是分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。搜索引擎主要就做两件事情，一个是网页抓取，一个是索引阅读全文

posted @ 2021-04-10 12:13 kris12 阅读(174) 评论(0) 推荐(0)

Spark| 软件性能优化| spark性能优化案例

摘要：1. 软件性能优化如何进行软件性能优化，系统地了解软件性能优化。所谓性能优化具体要做些什么呢？关于软件性能优化，有个著名的论断。 1. 你不能优化一个没有经过性能测试的软件。 2. 你不能优化一个你不了解其架构设计的软件。如果没有性能测试，那么你就不会知道当前软件的主要性能指标有哪些。通常来说阅读全文

posted @ 2021-04-09 14:35 kris12 阅读(575) 评论(0) 推荐(0)

Hadoop| 发展史

摘要：大数据概述大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决，海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位：bit、By 阅读全文

posted @ 2021-04-09 14:13 kris12 阅读(577) 评论(0) 推荐(0)

消息队列| RabbitMQ| RocketMQ| Kafka

摘要：1. 如何选择消息队列几个比较常见的开源的消息队列中间件，选择消息队列产品的基本标准首先，必须是开源的产品；其次，这个产品必须是近年来比较流行并且有一定社区活跃度的产品，流行的产品与周边生态系统会有一个比较好的集成和兼容，比如， Kafka 和 Flink 就有比较好的兼容性，Flink 内置阅读全文

posted @ 2021-02-10 23:07 kris12 阅读(328) 评论(0) 推荐(0)

消息队列中的问题| 丢消息| 重复消费| 消息积压

摘要：1. 丢消息检测消息丢失的方法一般而言，一个新的系统刚刚上线，各方面都不太稳定，需要一个磨合期，这个时候，特别需要监控到你的系统中是否有消息丢失的情况。如果是 IT 基础设施比较完善的公司，一般都有分布式链路追踪系统，使用类似的追踪系统可以很方便地追踪每一条消息。可以利用消息队列的有序性来验阅读全文

posted @ 2021-02-09 09:20 kris12 阅读(1616) 评论(0) 推荐(0)

Kafka| 如何实现高性能

摘要：Kafka的高性能 Kafka 的性能绝对是处于第一梯队的。我曾经在一台配置比较好的服务器上，对 Kafka 做过极限的性能压测，Kafka 单个节点的极限处理能力接近每秒钟 2000 万条消息，吞吐量达到每秒钟 600MB。你可能会问，Kafka 是如何做到这么高的性能的？怎么开发一个高性能的阅读全文

posted @ 2021-02-09 08:09 kris12 阅读(703) 评论(0) 推荐(0)

实时--1.5 ADS聚合| Mysql事务精准一次

摘要：ADS聚合需求分析以热门品牌统计为例,将数据写入到ads层，然后根据各种报表及可视化来生成统计数据。通常这些报表及可视化都是基于某些维度的汇总统计。热门商品统计（作业）热门品类统计（作业）交易用户性别对比（作业）交易用户年龄段对比（作业）交易额省市分布（作业）业务流程图 ADS层写入阅读全文

posted @ 2021-02-03 10:46 kris12 阅读(288) 评论(0) 推荐(0)

Flink| Table API 和Flink SQL

摘要：1. Table API和SQL Flink本身是批流统一的处理框架，所以Table API和SQL，就是批流统一的上层处理API。目前功能尚未完善，处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API，它允许我们以非常直观的方式，组合来自一些关系运算符的查询阅读全文

posted @ 2021-02-02 09:18 kris12 阅读(788) 评论(0) 推荐(0)

实时--1.1 日志采集集群

摘要：数据的准备有直接将日志生成到文件，而是将日志发送给某一个指定的端口 1. 通过SpringBoot进行日志的采集开发SpringBoot程序gmall-logger，采集日志数据借助Logbak将采集的日志落盘 (1) 在LoggerController上加@Slf4j注解，并通过log.in 阅读全文

posted @ 2021-02-02 09:16 kris12 阅读(289) 评论(0) 推荐(0)

端到端的Exactly Once| Kafka的事务和幂等性| Flink的Exactly Once

摘要：1. Kafka的事务和 Exactly Once Kafka 中的事务，它解决的问题是，确保在一个事务中发送的多条消息，要么都成功，要么都失败。注意，这里面的多条消息不一定要在同一个主题和分区中，可以是发往多个主题和分区的消息。Kafka 的这种事务机制，单独来使用的场景不多。更多的情况下被用来阅读全文

posted @ 2021-01-26 21:11 kris12 阅读(2785) 评论(0) 推荐(0)

ElasticSearch| 文档的CRUD

摘要：文档(Document) Elasticsearch是面向文档的，文档是所有可搜索数据的最小单位日志文件中的日志项一本电影的具体信息/一张唱片的详细信息 MP3播放器里的一首歌/一篇PDF文档中的具体内容文档会被序列化成JSON格式，保存在Elasticsearch中 JSON对象由字段组成，阅读全文

posted @ 2021-01-25 23:46 kris12 阅读(121) 评论(0) 推荐(0)

CAP 定理

摘要：CAP 定理（CAP theorem）又被称作布鲁尔定理（Brewer's theorem），是加州大学伯克利分校的计算机科学家埃里克·布鲁尔（Eric Brewer）在 2000 年的 ACM PODC 上提出的一个猜想。2002 年，麻省理工学院的赛斯·吉尔伯特（Seth Gilbert）和南阅读全文

posted @ 2021-01-25 23:36 kris12 阅读(531) 评论(0) 推荐(0)

ElasticSearch| mapping

摘要：Type可以理解为关系型数据库的Table，那每个字段的数据类型是如何定义的呢？实际上每个Type中的字段是什么数据类型，由mapping定义，如果我们在创建Index的时候，没有设定mapping，系统会自动根据一条数据的格式来推断出该数据对应的字段类型， mapping除了自动定义，还可以手动阅读全文

posted @ 2021-01-24 16:47 kris12 阅读(184) 评论(0) 推荐(0)

Elasticsearch| 分词

摘要：如何通过分词生成倒排索引分词是指将文本转换成一系列单词（term or token）的过程，也可以叫做文本分析，在es里面称为Analysis. Analysis 和Analyzer Analysis - 文本分析是把全文本转换一系列单词（term / token）的过程，也叫分词； Analys 阅读全文

posted @ 2021-01-24 14:29 kris12 阅读(603) 评论(0) 推荐(0)

ClickHouse| 02 副本| 集群读写操作

摘要：1. 副本副本的目的主要是保障数据的高可用性，即使一台ClickHouse节点宕机，那么也可以从其他服务器获得相同的数据。 1.1 副本写入流程 client从clickhouse-a节点写数据，提交写入日志给zookeeper，clickhouse-b有一个监听器来监听zookeeper接收到日阅读全文

posted @ 2021-01-18 10:54 kris12 阅读(2721) 评论(1) 推荐(0)

Elasticsearch-Restful API

摘要：1. 基本概念 Elasticsearch有几个核心概念，先理解这些概念将有助于掌握Elasticsearch。近实时(Near Realtime / NRT) Elasticsearch是一个近实时的搜索平台，从生成文档索引到文档成为可搜索，有一个轻微的延迟(通常是一秒钟)。集群(Cluste 阅读全文

posted @ 2021-01-13 16:04 kris12 阅读(480) 评论(0) 推荐(1)

Kylin| 常见问题

摘要：详细使用参考官方文档： http://kylin.apache.org/cn/docs/ Kylin的构建过程 sql如下 SELECT `APP_POINT`.`MID` as `APP_POINT_MID` ,`APP_POINT`.`MEMBER_LEVEL` as `APP_POINT_ME 阅读全文

posted @ 2020-12-08 10:02 kris12 阅读(970) 评论(0) 推荐(0)

数据仓库| 1.2 集群环境搭建| 业务数据采集

摘要：1、电商业务及数据结构电商业务流程电商的业务流程可以以一个普通用户的浏览足迹为例进行说明，用户点开电商首页开始浏览，可能会通过分类查询也可能通过全文搜索寻找自己中意的商品，这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品，可能会想要购买，将商品添加到购物车后发现需要登录，登阅读全文

posted @ 2020-12-07 23:38 kris12 阅读(562) 评论(0) 推荐(1)

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈

公告