随笔分类 - 大数据
摘要:在前面两篇博客中,分别介绍了clickhouse的架构与数据结构和clickhouse的引擎与分类比较,对于clickhouse的基本特性有了一个大概的了解,在本文中主要从实际生产过程中集群的分布式部署以及数据查询的过程角度进行分析,详细剖析数据查询的基本过程,以及分布式部署中的一些细节。
阅读全文
摘要:在上面一篇博客(https://www.cnblogs.com/Demrystv/p/14274358.html)中,主要介绍了clickhouse的架构与数据结构,使我们对于clickhouse的底层基本知识有了一个大概的了解,在这篇博客中,主要围绕clickhouse的引擎与不同引擎的分类之间的
阅读全文
摘要:最近在公司的项目中,为了解决日均上千万的数据量的查询,公司的底层数据库由memsql切换为clickhouse,作为一款近几年异军突起的列式存储数据库,其在大数据量下的查询的速度优势非常明显,因此从本片博客开始,写一个专题,将我最近学习到的相关知识进行整理归纳和总结。通过这些基础知识的学习,确实在工
阅读全文
摘要:最近在实际项目开发中,底层数据模型侧提供的数据不符合项目要求的数据的粗细粒度,因此需要作为Java开发的我去写一些脚本汇总数据,在这个过程中遇到了一点坑,特此翻了翻hive的基本语法作为温习,特此整理如下。
阅读全文
摘要:查看文件夹: hadoop dfs -ls hdfs目录 删除文件:hadoop fs -rm -r hdfs目录/文件 上传文件:hadoop fs -put 本地文件 远程hdfs目录 查看文件: hadoop fs -ls hdfs目录 查看分区: show partitions table_
阅读全文
摘要:海量数据处理面试题与方法大总结 针对海量数据处理问题,是面试中的常见考点,发现一个不错的帖子,整理如下。 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限
阅读全文

浙公网安备 33010602011771号