会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
寻影4_2
寻和影隔着all life
博客园
首页
新随笔
联系
订阅
管理
2019年6月11日
hive小tips(各种解析)
摘要: 1.hive查询中sum数据精度丢失问题 公司大数据组把线上数据库表的类型简单粗暴的设置为string类型了,而我们在hive上做算数运算时出现精度丢失现象。 处理方案:使用cast(table.column_name as decimal(38,2)) 将string类型转换成decimal(38
阅读全文
posted @ 2019-06-11 15:53 寻影4_2
阅读(1218)
评论(0)
推荐(0)
2019年3月13日
hive中常见问题
摘要: 1 limit语句优化 eg.select *from table_name <where pa2='' <and pa3='xx'>> limit 100 在 Hive 中, 由于表的数据量往往较大, 以上语句都会被优化 (set hive.fetch.task.conversion = none
阅读全文
posted @ 2019-03-13 16:57 寻影4_2
阅读(2134)
评论(0)
推荐(0)
2019年2月28日
GBDT记录
摘要: GBDT(Gradient Boosting Decision Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。 GBDT主要由三个概念组成:Regression Decistion Tree(即DT),Gradient Boosting(即GB),Shr
阅读全文
posted @ 2019-02-28 17:39 寻影4_2
阅读(153)
评论(0)
推荐(0)
2019年2月27日
集成学习记录(Boosting和Bagging)
摘要: 集成学习: 集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。 目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。 集成学习主要思想:
阅读全文
posted @ 2019-02-27 20:05 寻影4_2
阅读(229)
评论(0)
推荐(0)
2019年2月21日
阅读笔记《一个数据分析师眼中的数据预测与 监控》
摘要: 角色:数据分析 目标:预测 内容: BI 日常工作中的数据分析方法以及在统计模型 搭建过程中的注意事项。 1 非时序预测 在机器学习和深度学习大行其道的当下,一个好的预测模型不在于应用了多么高深的算法, 而在于如何从简单的模型开始进行尝试,兼顾业务逻辑,基于某个 baseline 来控制时间和应 用
阅读全文
posted @ 2019-02-21 15:58 寻影4_2
阅读(599)
评论(0)
推荐(0)
2018年10月30日
hive--新增字段,数据重跑坑
摘要: 场景: 当我们建表完成并按照时间分区插入数据,之后我们发现需要增加一个字段。 办法: 我们首先想到的是先在表中增加字段。 1)alter table table_name add columns(new_attr string); 然后重跑数据 2)insert overwrite table ta
阅读全文
posted @ 2018-10-30 20:02 寻影4_2
阅读(4226)
评论(0)
推荐(0)
2018年10月26日
hive-数据倾斜记录分享
摘要: 时间比较赶,简单记录下: 问题描述:一开始我一个拉链表查一条数据,select *from chain_table_name where id='XXX' 最后出现: map 99%,Reduce 0%,就不再执行了,也咩有结果。 解决方案: set hive.map.aggr = true; se
阅读全文
posted @ 2018-10-26 14:10 寻影4_2
阅读(275)
评论(0)
推荐(0)
2018年10月25日
hive_tips---修改表数据中某一列
摘要: 1.设置动态分区: set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; 2.覆盖数据 insert overwrite table table_name_tmp1 partition
阅读全文
posted @ 2018-10-25 15:39 寻影4_2
阅读(4794)
评论(0)
推荐(0)
2018年8月9日
面试记录
摘要: 1.美团 一面: 1)一个数组,给出一个值m,用最快的速度找出数组中两个数和为m的数。 2)标准差和方差区别 3)相似度,相关度,距离 4)平时遇到的问题,遇到问题怎么办,平时怎么学习的,学的最好的一门课程,怎么学的。 5)有什么需要问的。 2.CVTE 2017年9月14日(中央研究院-数据挖掘)
阅读全文
posted @ 2018-08-09 13:25 寻影4_2
阅读(147)
评论(0)
推荐(0)
毕业设计罗列-简写
摘要: 1.2017/11/16 ==》从用户画像的角度思考:(大结构) 四类画像视角,分别是: 1)基于虚构的视角(Norman,2004):取决于设计者假设 2)基于目标导向的视角(AlanCooper,1999&2007):强调用户使用产品/服务的目的来刻画用户原型,基于用户数据驱动。 3)基 于角色
阅读全文
posted @ 2018-08-09 13:24 寻影4_2
阅读(245)
评论(0)
推荐(0)
下一页
公告