摘要: 1.hive查询中sum数据精度丢失问题 公司大数据组把线上数据库表的类型简单粗暴的设置为string类型了,而我们在hive上做算数运算时出现精度丢失现象。 处理方案:使用cast(table.column_name as decimal(38,2)) 将string类型转换成decimal(38 阅读全文
posted @ 2019-06-11 15:53 寻影4_2 阅读(1107) 评论(0) 推荐(0) 编辑
摘要: 1 limit语句优化 eg.select *from table_name <where pa2='' <and pa3='xx'>> limit 100 在 Hive 中, 由于表的数据量往往较大, 以上语句都会被优化 (set hive.fetch.task.conversion = none 阅读全文
posted @ 2019-03-13 16:57 寻影4_2 阅读(2059) 评论(0) 推荐(0) 编辑
摘要: GBDT(Gradient Boosting Decision Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。 GBDT主要由三个概念组成:Regression Decistion Tree(即DT),Gradient Boosting(即GB),Shr 阅读全文
posted @ 2019-02-28 17:39 寻影4_2 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 集成学习: 集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。 目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。 集成学习主要思想: 阅读全文
posted @ 2019-02-27 20:05 寻影4_2 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 角色:数据分析 目标:预测 内容: BI 日常工作中的数据分析方法以及在统计模型 搭建过程中的注意事项。 1 非时序预测 在机器学习和深度学习大行其道的当下,一个好的预测模型不在于应用了多么高深的算法, 而在于如何从简单的模型开始进行尝试,兼顾业务逻辑,基于某个 baseline 来控制时间和应 用 阅读全文
posted @ 2019-02-21 15:58 寻影4_2 阅读(577) 评论(0) 推荐(0) 编辑
摘要: 场景: 当我们建表完成并按照时间分区插入数据,之后我们发现需要增加一个字段。 办法: 我们首先想到的是先在表中增加字段。 1)alter table table_name add columns(new_attr string); 然后重跑数据 2)insert overwrite table ta 阅读全文
posted @ 2018-10-30 20:02 寻影4_2 阅读(4112) 评论(0) 推荐(0) 编辑
摘要: 时间比较赶,简单记录下: 问题描述:一开始我一个拉链表查一条数据,select *from chain_table_name where id='XXX' 最后出现: map 99%,Reduce 0%,就不再执行了,也咩有结果。 解决方案: set hive.map.aggr = true; se 阅读全文
posted @ 2018-10-26 14:10 寻影4_2 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 1.设置动态分区: set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; 2.覆盖数据 insert overwrite table table_name_tmp1 partition 阅读全文
posted @ 2018-10-25 15:39 寻影4_2 阅读(4769) 评论(0) 推荐(0) 编辑
摘要: 1.美团 一面: 1)一个数组,给出一个值m,用最快的速度找出数组中两个数和为m的数。 2)标准差和方差区别 3)相似度,相关度,距离 4)平时遇到的问题,遇到问题怎么办,平时怎么学习的,学的最好的一门课程,怎么学的。 5)有什么需要问的。 2.CVTE 2017年9月14日(中央研究院-数据挖掘) 阅读全文
posted @ 2018-08-09 13:25 寻影4_2 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.2017/11/16 ==》从用户画像的角度思考:(大结构) 四类画像视角,分别是: 1)基于虚构的视角(Norman,2004):取决于设计者假设 2)基于目标导向的视角(AlanCooper,1999&2007):强调用户使用产品/服务的目的来刻画用户原型,基于用户数据驱动。 3)基 于角色 阅读全文
posted @ 2018-08-09 13:24 寻影4_2 阅读(235) 评论(0) 推荐(0) 编辑