摘要: 一、在聚合前在map端先预聚合 使用reduceByKey/aggregateByKey代替groupByKey 二、一次处理一个分区的数据,不过要注意一个分区里的数据不要太大,不然会报oom * 使用mapPartitions代替map * 使用foreachPartitions代替foreach 阅读全文
posted @ 2021-03-31 20:32 肥仔佳文猪 阅读(214) 评论(0) 推荐(0)
摘要: shuffle优化之减少shuffle数据量 1.谓词下推 hive.optimize.ppd ,默认为true。 所谓谓词下推就是过滤条件如果写在shuffle操作后面,就提前过滤掉,减少参与shuffle的数据量 如 select * from a join b on a.id=b.id whe 阅读全文
posted @ 2021-03-25 18:14 肥仔佳文猪 阅读(435) 评论(0) 推荐(0)
摘要: 在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大。 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点,可以对排序的数据各个机器节点内有序,再做归并排序, 虽然这样做的复杂度还是O (nlogn) , 阅读全文
posted @ 2021-03-25 11:49 肥仔佳文猪 阅读(515) 评论(0) 推荐(0)
摘要: 数据倾斜是由于某个task被分配过多数据,而比其他task需要更多的执行时间(如几十倍,几百倍),导致其他task执行完进入漫长等待的一种现象。 数据倾斜只会发生在多对多或一对多的数据分发的过程中,如spakr的shuffle操作中,在MapReduce中的reduce阶段, 常见的算子类型为:jo 阅读全文
posted @ 2021-03-23 19:17 肥仔佳文猪 阅读(1148) 评论(0) 推荐(0)
摘要: 去重表:RepalcingMergeTree 1.使用order by排序键作为判断重复数据的唯一键 2.只有在合并分区的时候才会触发删除重复数据的逻辑 3.以数据分区为单位删除重复数据。当分区合并时,同一分区内的重复数据会被删除;不同分区之间的重复数据不会被删除。 4.在进行数据去重时,因为分区内 阅读全文
posted @ 2021-03-19 20:00 肥仔佳文猪 阅读(141) 评论(0) 推荐(0)
摘要: 某只股票跌到一个位置时会产生支撑,跌不破这个底线,就像受到了支撑一样,相反,某只股票上涨时,突破不了某个价位,好像遇到了阻力。 那么支撑和阻力是怎么产生的呢? 真正产生支撑和阻力作用的是成交量。因为成交量代表着流入和流出市场的资金量,成交量的大小反应出参与者的信心大小。支撑是在某个价位购买力超过了抛 阅读全文
posted @ 2021-03-17 22:43 肥仔佳文猪 阅读(517) 评论(0) 推荐(0)
摘要: 22.FT : follow through 。 跟随 价格上涨到阻力区,需求反抗供应的压力,不但没有被压力打垮,反而是买方的行为引起市场上其他人的响应,表明买方有持续性,抗压能力强,后市看涨 23.RHS : right-hand side 。 右手边 上涨趋势,调整后,再次上涨没有结果,二次测试 阅读全文
posted @ 2021-03-15 22:06 肥仔佳文猪 阅读(540) 评论(0) 推荐(0)
摘要: 1.弹簧效应:英文缩写:spring 当价格走到一个大家都认为可以赚钱的价格区的时候,人们的需求势必增加,从而导致价格停止下跌。而需求的增加必须具有持续力度,才能使得价格继续上涨。spring就是价格跌破支撑后又回到支撑之上。一般用于区间交易和回测交易。spring出现的时候,量不能大,如果量大,价 阅读全文
posted @ 2021-03-14 15:53 肥仔佳文猪 阅读(1132) 评论(0) 推荐(0)
摘要: 1.组织,制度,流程:是否具备完整的数据管理制度,组织,考核机制; 是否拥有科学的数据新增,审核,变更等管理流程; 是否具备未来数据管理体系完善拓展的指导性知识 2.模型体系:是否拥有完整科学的数据分类体系(数据仓库体系),元数据模型体系,编码结构体系,以及未来体系完善和拓展的原则/方法, 是否具备 阅读全文
posted @ 2021-03-10 17:55 肥仔佳文猪 阅读(264) 评论(0) 推荐(0)
摘要: 企业数据质量指的是一条数据的质量表现,需要考虑数据自身的质量问题和不同系统间交互等原因会产生的质量问题。 分析企业的数据质量,归纳来讲有6个方面: 1.数据一致性:同一业务实体对象在不同业务系统、不同组织机构内,它的名称等相关静态基准信息以及被引用的关联属性数据信息应是否完全一致,不存在任何差异。 阅读全文
posted @ 2021-03-10 16:39 肥仔佳文猪 阅读(656) 评论(0) 推荐(0)