04 2018 档案
摘要:sparkstreaming关于偏移量的管理 1. 在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置 2. 读取并处理消息 3. 处理完之后
阅读全文
摘要:背景 用户需求:近期数据查询速度快,较远历史数据运行查询速度慢? 对于开发人员而言即数据的冷热分离,实现此功能有2个前提条件: 1. 硬件:处理速度不同的硬件,最起码有读写速度不同的硬盘,如SSD、机械硬盘HDD。 2. 软件配置:可以配置 不同的数据存储在不同的硬盘,如近期数据存储在SSD,较远历
阅读全文
摘要:hdfs如何让某些数据查询快,某些数据查询慢? hdfs冷热数据分层存储 本质: 不同路径制定不同的存储策略。 hdfs存储策略 hdfs的存储策略 依赖于底层的存储介质。 hdfs支持的存储介质: 1. ARCHIVE:高存储密度但耗电较少的存储介质,例如磁带,通常用来存储冷数据 2. DISK:
阅读全文
摘要:背景 项目中已提供海量日志数据的多维实时查询,客户提出新需求:将数据导出。 将数据导出分两步: 1. 查询大量数据 2. 将数据生成文件并下载 本文主要探讨第一步,在es中查询大量数据或者说查询大数据集。 es支持的查询数量 es默认支持的查询数量或者说查询深度是10,000。 可以动态修改max_
阅读全文
摘要:从es将数据导出分两步: 1. 查询大量数据 2. 将数据生成文件并下载 本篇主要是将第二步,第一步在《 "es实战之查询大量数据" 》中已讲述。 csv vs excel excel2003不能超过65536, excel2007及以上版本支持1048576条数据。excel支持的数据量有限,并且
阅读全文
浙公网安备 33010602011771号