大数据 - 随笔分类 - 潇湘灬隐者

hive数据倾斜处理

摘要：Hive数据倾斜原因和解决办法（Data Skew）什么是数据倾斜（Data Skew）？数据倾斜是指在原本应该并行处理的数据集中，某一部分的数据显著多于其它部分，从而使得该部分数据的处理速度成为整个数据集处理的瓶颈。假设数据分布不均匀，某个key对应几十万条数据，其他key对应几百条或几十条阅读全文

posted @ 2021-01-15 12:37 潇湘灬隐者阅读(1714) 评论(0) 推荐(0)

hbase基本命令

摘要：1、Hbase shell客户端使用 a、进入客户端 hbase shell b、常用命令 list 列出Hbase中存在的所有表 alter 修改列簇(column family)模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指阅读全文

posted @ 2021-01-15 12:22 潇湘灬隐者阅读(861) 评论(0) 推荐(0)

大数据hadoop生态圈

摘要：大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作阅读全文

posted @ 2017-09-12 18:42 潇湘灬隐者阅读(394) 评论(0) 推荐(1)

Hadoop生态圈

摘要：1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce：并行计算框架解决的问题: HDFS: 海量数据的存储 MapReduce：海量数据的分析 2.Hadoop生态圈 ①HBase G 阅读全文

posted @ 2016-12-19 21:57 潇湘灬隐者阅读(232) 评论(0) 推荐(0)

随笔分类 - 大数据

公告