10 2021 档案

摘要:[Hive][COUNT] 使用count后出现null问题排查 问题概述 使用hive进行用户频次类数据分组提取时,最终的结果出现了全部为null的记录,同时也有全为0的记录,分析原因 v1HQL逻辑 with sup_tab as( 取出用户所用行为记录 ) select 用户id, count 阅读全文
posted @ 2021-10-31 14:07 riaris 阅读(772) 评论(0) 推荐(0)
摘要:一开始没有自信是理所当然的事情,积累下来的努力和达成的成果,就能铸就起自信,之后,只需要一小撮香料就行了 阅读全文
posted @ 2021-10-29 18:21 riaris 阅读(33) 评论(0) 推荐(0)
摘要:写在开头 由于自己对于大数据方面的知识只能说皮毛都没懂,很多问题不知道怎么解决和解释,所以有这么一个分类 该分类下只记录一些操作,以及粗略的解释,还有一些自己的思考以及顾虑,当作是记录自己从业的点滴吧。 任务场景 处理X个特征后拼接到原始表上,X * [id1,id2,raw_feature_1,. 阅读全文
posted @ 2021-10-29 16:42 riaris 阅读(153) 评论(0) 推荐(0)
摘要:熵 熵的本质是一个系统“内在的混乱程度”,是物理学的概念。 在信息论中,信息熵可以有以下两种理解方式 表征事物的不确定性 表征事件的信息量 事件与概率 先来举个例子,理解事件与概率之间的关系 猜小球事件 有一个不透明的袋子,其中有四种数量相等的小球,A,B,C,D, 现在,拿出一个小球,事件$P{拿 阅读全文
posted @ 2021-10-23 12:31 riaris 阅读(633) 评论(0) 推荐(0)
摘要:结论 cache操作通过调用persist实现,默认将数据持久化至内存(RDD)内存和硬盘(DataFrame),效率较高,存在内存溢出等潜在风险。 persist操作可通过参数调节持久化地址,内存,硬盘,堆外内存,是否序列化,存储副本数,存储文件为临时文件,作业完成后数据文件自动删除。 check 阅读全文
posted @ 2021-10-13 19:51 riaris 阅读(1339) 评论(0) 推荐(0)