2018 年 4月随笔档案 - small_k

SparkStreaming使用checkpoint存在的问题及解决方案

摘要：sparkstreaming关于偏移量的管理 1. 在 Direct DStream初始化的时候，需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置 2. 读取并处理消息 3. 处理完之后阅读全文

posted @ 2018-04-22 22:08 small_k 阅读(16303) 评论(1) 推荐(0)

es高级用法之冷热分离

摘要：背景用户需求：近期数据查询速度快，较远历史数据运行查询速度慢？对于开发人员而言即数据的冷热分离，实现此功能有2个前提条件： 1. 硬件：处理速度不同的硬件，最起码有读写速度不同的硬盘，如SSD、机械硬盘HDD。 2. 软件配置：可以配置不同的数据存储在不同的硬盘，如近期数据存储在SSD，较远历阅读全文

posted @ 2018-04-18 10:20 small_k 阅读(3820) 评论(0) 推荐(0)

hdfs冷热数据分层存储

摘要：hdfs如何让某些数据查询快，某些数据查询慢？ hdfs冷热数据分层存储本质：不同路径制定不同的存储策略。 hdfs存储策略 hdfs的存储策略依赖于底层的存储介质。 hdfs支持的存储介质： 1. ARCHIVE：高存储密度但耗电较少的存储介质，例如磁带，通常用来存储冷数据 2. DISK：阅读全文

posted @ 2018-04-15 15:58 small_k 阅读(6938) 评论(0) 推荐(0)

es实战之查询大量数据

摘要：背景项目中已提供海量日志数据的多维实时查询，客户提出新需求：将数据导出。将数据导出分两步： 1. 查询大量数据 2. 将数据生成文件并下载本文主要探讨第一步，在es中查询大量数据或者说查询大数据集。 es支持的查询数量 es默认支持的查询数量或者说查询深度是10,000。可以动态修改max_ 阅读全文

posted @ 2018-04-05 15:34 small_k 阅读(12922) 评论(0) 推荐(0)

es实战之数据导出成csv文件

摘要：从es将数据导出分两步： 1. 查询大量数据 2. 将数据生成文件并下载本篇主要是将第二步，第一步在《 "es实战之查询大量数据" 》中已讲述。 csv vs excel excel2003不能超过65536， excel2007及以上版本支持1048576条数据。excel支持的数据量有限，并且阅读全文

posted @ 2018-04-05 15:34 small_k 阅读(17630) 评论(0) 推荐(0)

04 2018 档案

公告