记一次蛋疼的mongo to hive导数过程
摘要:1. 起因 一次hive查数过程中,发现hive中缺省了10天的近3000w的数据,自问自答:怎么办,当然是要补数啊!从哪里补,mongo啊(还好mongo中有一份)! mongo中数据是bson保存,而且数据列与hive不一样! 2. 解决方案 方案1: 思路:由于 只能以逗号分割字段,所以要导到
阅读全文
记一次22亿大数据分析处理踩坑经历
摘要:前言 :用最简单最少的语言,分享我的坑,理不理解需求不重要,问题都在shell代码中,看shell极度枯燥,希望能有帮助! 一. 起因 需求,分析hive表中两年内用户XX的所有数据,按照每天早,中,晚三个时间段统计,按照两年内的节假日统计,按照月份的上旬,中旬,下旬统计,按照周末,工作日统计等等。
阅读全文
MyISAM和InnoDB索引实现对比(总结)
摘要:MyISAM索引实现 MyISAM引擎使用B+Tree作为索引结构,叶节点的data域存放的是数据记录的地址。如图: 这里设表一共有三列,假设我们以Col1为主键,则上图是一个MyISAM表的主索引(Primary key)示意。可以看出MyISAM的索引文件仅仅保存数据记录的地址。在MyISAM中
阅读全文
InnoDB的三个关键特性(总结)
摘要:InnoDB存储引擎的三个关键特性:插入缓冲(insert buffer)、二次写(double write)、自适应哈希索引(adaptive hash index)。 插入缓冲(insert buffer): 对于非聚集索引的插入和更新,不是每一次直接插入索引页中,而是首先判断插入的非聚集索引页
阅读全文
InnoDB与MyISAM总结和对比(总结)
摘要:Mysql的数据库引擎在我的博客中曾经有过陈述,但只是对所有引擎的一个简单叙述,而InnoDB与MyISAM数据库引擎是我们平时使用最多的,有必要进行详细全面的介绍和对比,以便我们在选择数据库引擎时能够根据需求更好地选择。 InnoDB 特点: 支持ACID事务(具有提交,回滚和崩溃恢复能力),支持
阅读全文