大数据 - 随笔分类 - Demrystv

clickhouse的数据查询与分布式

摘要：在前面两篇博客中，分别介绍了clickhouse的架构与数据结构和clickhouse的引擎与分类比较，对于clickhouse的基本特性有了一个大概的了解，在本文中主要从实际生产过程中集群的分布式部署以及数据查询的过程角度进行分析，详细剖析数据查询的基本过程，以及分布式部署中的一些细节。阅读全文

posted @ 2021-02-24 22:09 Demrystv 阅读(470) 评论(0) 推荐(0)

clickhouse的引擎与分类比较

摘要：在上面一篇博客（https://www.cnblogs.com/Demrystv/p/14274358.html）中，主要介绍了clickhouse的架构与数据结构，使我们对于clickhouse的底层基本知识有了一个大概的了解，在这篇博客中，主要围绕clickhouse的引擎与不同引擎的分类之间的阅读全文

posted @ 2021-01-27 20:50 Demrystv 阅读(419) 评论(0) 推荐(0)

clickhouse的架构与数据结构

摘要：最近在公司的项目中，为了解决日均上千万的数据量的查询，公司的底层数据库由memsql切换为clickhouse，作为一款近几年异军突起的列式存储数据库，其在大数据量下的查询的速度优势非常明显，因此从本片博客开始，写一个专题，将我最近学习到的相关知识进行整理归纳和总结。通过这些基础知识的学习，确实在工阅读全文

posted @ 2021-01-13 20:45 Demrystv 阅读(796) 评论(0) 推荐(0)

Hive基础知识总结

摘要：最近在实际项目开发中，底层数据模型侧提供的数据不符合项目要求的数据的粗细粒度，因此需要作为Java开发的我去写一些脚本汇总数据，在这个过程中遇到了一点坑，特此翻了翻hive的基本语法作为温习，特此整理如下。阅读全文

posted @ 2020-09-24 20:39 Demrystv 阅读(149) 评论(0) 推荐(0)

Hadoop常用命令

摘要：查看文件夹： hadoop dfs -ls hdfs目录删除文件：hadoop fs -rm -r hdfs目录/文件上传文件：hadoop fs -put 本地文件远程hdfs目录查看文件： hadoop fs -ls hdfs目录查看分区： show partitions table_ 阅读全文

posted @ 2020-04-27 20:23 Demrystv 阅读(264) 评论(0) 推荐(0)

海量数据处理面试题与方法大总结

摘要：海量数据处理面试题与方法大总结针对海量数据处理问题，是面试中的常见考点，发现一个不错的帖子，整理如下。 1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限阅读全文

posted @ 2018-08-15 23:32 Demrystv 阅读(266) 评论(0) 推荐(0)

Demrystv

Stay hungry， Stay foolish

随笔分类 - 大数据

公告