随笔分类 -  大数据

1
摘要:ClickHouse 和 Elasticsearch 是两种不同的数据存储和分析工具,各自在不同的用例和场景下发挥着作用。 数据类型: ClickHouse:主要用于结构化数据,特别擅长处理大规模的数据仓库和分析场景,支持 SQL 查询。 Elasticsearch:适用于非结构化或半结构化数据,特 阅读全文
posted @ 2024-04-04 21:03 阿凡卢 阅读(97) 评论(0) 推荐(0) 编辑
摘要:1.OLAP On-line Analytical Processing,联机分析处理是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。可以比较下其与传统的OLTP(On-line Transaction Processing,联机事务处理)的区别来看一下它的特点: 数据处理类型 OL 阅读全文
posted @ 2021-10-14 11:06 阿凡卢 阅读(2437) 评论(3) 推荐(0) 编辑
摘要:数据去重(data deduplication)是大数据领域司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更在于消除不可靠数据源产生的脏数据——即重复上报数据或重复投递数据的影响,使计算产生的结果更加准确。 介绍下经常使用的去重方案: 一、布隆过滤器(BloomFilter) 基本原理: 阅读全文
posted @ 2021-02-09 11:36 阿凡卢 阅读(5914) 评论(0) 推荐(1) 编辑
摘要:一、双流join 在数据库中的静态表上做OLAP分析时,两表join是非常常见的操作。同理,在流式处理作业中,有时也需要在两条流上做join以获得更丰富的信息。 1、Tumbling Window Join 代码示例: DataStream<Integer> orangeStream = ... D 阅读全文
posted @ 2021-01-07 11:46 阿凡卢 阅读(4423) 评论(0) 推荐(0) 编辑
摘要:1、背景 日志系统接入的日志种类多、格式复杂多样,主流的有以下几种日志: filebeat采集到的文本日志,格式多样 winbeat采集到的操作系统日志 设备上报到logstash的syslog日志 接入到kafka的业务日志 以上通过各种渠道接入的日志,存在2个主要的问题: 格式不统一、不规范、标 阅读全文
posted @ 2020-06-27 12:33 阿凡卢 阅读(8265) 评论(11) 推荐(1) 编辑
摘要:LSM简介 Log Structured Merge Tree,下面简称 LSM。2006年,Google 发表了 BigTable 的论文。这篇论文提到 BigTable 单机上所使用的数据结构就是 LSM。目前,LSM 被很多存储产品作为存储结构,比如 Apache HBase, Apache 阅读全文
posted @ 2020-06-01 14:29 阿凡卢 阅读(4427) 评论(0) 推荐(0) 编辑
摘要:简单介绍下flink、spark和storm的backpressure机制。 1、storm 反压 实现原理 Storm 是通过监控 Bolt 中的接收队列负载情况来实现反压: 如果一个executor发现recv queue负载超过高水位值(high watermark)就会通知反压线程(back 阅读全文
posted @ 2020-05-29 14:51 阿凡卢 阅读(2015) 评论(0) 推荐(0) 编辑
摘要:如何提高 Flink 任务性能 一、Operator Chain 为了更高效地分布式执行,Flink 会尽可能地将 operator 的 subtask 链接(chain)在一起形成 task,每个 task 在一个线程中执行。将 operators 链接成 task 是非常有效的优化:它能减少线程 阅读全文
posted @ 2019-12-29 13:06 阿凡卢 阅读(10643) 评论(0) 推荐(1) 编辑
摘要:一、简介 开源流式处理系统在不断地发展,从一开始只关注低延迟指标到现在兼顾延迟、吞吐与结果准确性,在发展过程中解决了很多问题,编程API的易用性也在不断地提高。本文介绍一下 Flink 中的核心概念,这些概念是学习与使用 Flink 十分重要的基础知识,在后续开发 Flink 程序过程中将会帮助开发 阅读全文
posted @ 2019-12-14 16:21 阿凡卢 阅读(4185) 评论(1) 推荐(0) 编辑
摘要:什么是Apache Storm Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。通过Storm可以并行地对实 阅读全文
posted @ 2019-07-07 13:47 阿凡卢 阅读(3543) 评论(0) 推荐(0) 编辑
摘要:版本配置: ES版本:6.2.4 OS内存64G。 一、安装部署: 1.ES jvm内存31G,预留一半的物理内存给文件系统缓存(file system cache)。 2.禁止内存交换: 修改/etc/sysctl.conf 中 vm.swappiness = 1 elasticsearch.ym 阅读全文
posted @ 2019-04-20 20:24 阿凡卢 阅读(3685) 评论(0) 推荐(1) 编辑
摘要:1、简介 Elasticsearch在5.3版本中引入了Cross Cluster Search(CCS 跨集群搜索)功能,用来替换掉要被废弃的Tribe Node。类似Tribe Node,Cross Cluster Search用来实现跨集群的数据搜索。 2、配置Cross Cluster Se 阅读全文
posted @ 2018-10-28 14:00 阿凡卢 阅读(6734) 评论(0) 推荐(0) 编辑
摘要:一、索引管理1、创建索引 PUT test-2019-03 { "settings": { "index": { "number_of_shards": 10, "number_of_replicas": 1, "routing": { "allocation": { "include": { "t 阅读全文
posted @ 2018-08-25 10:42 阿凡卢 阅读(6511) 评论(0) 推荐(0) 编辑
摘要:ES版本:6.2.4 集群环境:7台机器,每台部署一个master节点。其中3台部署2个hot节点,另外4台部署2个warm节点。共21个节点。 1. 挂盘 按实际情况分盘,一个机子上的2个data节点均分数据磁盘。 通过UUID挂盘,以防止以后换盘,盘符移动(这里拿3个盘举例)。 mkdir -p 阅读全文
posted @ 2018-08-11 15:36 阿凡卢 阅读(2131) 评论(1) 推荐(0) 编辑
摘要:Elasticsearch虽然定位为Search Engine,但是因其可以持久化数据,很多时候,我们把Elasticsearch当成Database用,但是Elasticsearch不支持SQL,就需要把SQL逻辑转换成代码实现对应的功能。 以下列举了一些常用的SQL转换成对应的Java代码。 1 阅读全文
posted @ 2017-05-08 17:43 阿凡卢 阅读(1458) 评论(0) 推荐(0) 编辑
摘要:简介 Spark的 RDD、DataFrame 和 SparkSQL的性能比较。 简介 Spark的 RDD、DataFrame 和 SparkSQL的性能比较。 2方面的比较 单条记录的随机查找 aggregation聚合并且sorting后输出 使用以下Spark的三种方式来解决上面的2个问题, 阅读全文
posted @ 2017-02-14 15:54 阿凡卢 阅读(2749) 评论(0) 推荐(0) 编辑
摘要:当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如transformation,action,RDD(resilient distributed dataset) 等等。 了解到这些是编写 Spark 代码的基础。 同样,当你任务开始失败或者你需要 阅读全文
posted @ 2017-02-02 16:07 阿凡卢 阅读(2908) 评论(0) 推荐(2) 编辑
摘要:简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 Kafka架构 它的架构包括以下组件: 话题(Topic):是特定类型的消息流。消息是字 阅读全文
posted @ 2016-05-14 15:24 阿凡卢 阅读(31757) 评论(5) 推荐(5) 编辑
摘要:一、简介 ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4.0版本后的SolrCloud才是分布式版本,Solr的分布式支持需要ZooKeeper的支持。 这里有一个详细的ElasticSearch和Solr的对比:ht 阅读全文
posted @ 2015-10-11 16:35 阿凡卢 阅读(57613) 评论(9) 推荐(4) 编辑
摘要:测试环境 本文简单对比下Solr与MySQL的查询性能速度。 测试数据量:10407608 Num Docs: 10407608 普通查询 这里对MySQL的查询时间都包含了从MySQL Server获取数据的时间。 在项目中一个最常用的查询,查询某段时间内的数据,SQL查询获取数据,30s左右 对 阅读全文
posted @ 2015-08-02 18:43 阿凡卢 阅读(16061) 评论(0) 推荐(3) 编辑

1