会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
对知识保持敬畏
首页
新随笔
联系
订阅
管理
[置顶]
欢迎光临riaris的博客
摘要: 一开始没有自信是理所当然的事情,积累下来的努力和达成的成果,就能铸就起自信,之后,只需要一小撮香料就行了
阅读全文
posted @ 2021-10-29 18:21 riaris
阅读(21)
评论(0)
推荐(0)
2022年2月28日
[SQL][row_number() over ]row_number() over (partition by key1 order by key2 ASC) AS rank 与where联合使用时存在风险
摘要: 结论 当使用row_number()时,先确认key是否有重复,如果排序的键有重复,为了减少风险,建议使用rank dense_rank 代替 row_number() 相较于rank dense_rank 而言,对数目的编号存在随机性——当多条数目的key2相同时,则会随机给予数字编号顺序。 这直
阅读全文
posted @ 2022-02-28 11:03 riaris
阅读(98)
评论(0)
推荐(0)
2021年12月22日
[SparkSQL][COUNT(*COLS)]关于count(col1,col2)的使用记录
摘要: 结论 功能 count(col1, col2) 可以统计 多个字段的非空记录 要求 count()内含多个字段时,若有一个字段的记录为Null 则该条记录不会被统计 count()内含多个字段时,非sparksql引擎需要加distinct 字段限制 count()内含多个字段时,和以下语句不同 s
阅读全文
posted @ 2021-12-22 18:54 riaris
阅读(522)
评论(0)
推荐(0)
2021年12月1日
[sparkSQL][union]关于union相关的使用记录,奇怪的去重方法增加了
摘要: sql 中 Union相关说明 结论 Union & Union all: 功能:将两个要连接的 SQL 语句拼接在一起, 要求:字段个数一样(强制),字段类型一致(非强制)int→double→string 输出:以第一个表的列名作为输出表的列名 区别:union会对拼接结果去重,union al
阅读全文
posted @ 2021-12-01 11:33 riaris
阅读(1146)
评论(0)
推荐(0)
2021年11月24日
[spark][pyspark]拆分DataFrame中某列Array
摘要: getItem()语法 pyspark.sql.Column.getItem 描述 An expression that gets an item at position ordinal out of a list, or gets an item by key out of a dict. 示例
阅读全文
posted @ 2021-11-24 12:33 riaris
阅读(1189)
评论(0)
推荐(0)
2021年11月10日
[spark][sql]Spark中使用RDD.toDF()由于数据类型不同带来的bug记录
摘要: Spark转换RDD到DF时,因数据类型不同带来的问题记录 问题描述 环境 注意!!! 在spark3+中,此bug是否还存在待证实。 spark2.4.5 pyspark 目标逻辑 在使用Spark过程中,需要将保存数据列表的RDD转换为DataFrame写入hive表中。 问题发生 在列表数据转
阅读全文
posted @ 2021-11-10 17:10 riaris
阅读(549)
评论(0)
推荐(0)
2021年11月4日
[特征工程][特征设计]注意时间因素对样本带来的影响
摘要: 时间对样本的的影响 背景 数据挖掘方面不同于CV算法,产生的原始数据量非常大,有很多表都是以di结尾的增量表,每天都会更新,这就导致了数据“产生的时间点”,以及模型”预测的时间点“,样本”标签指定的时间“都即为重要,如果不注意就会出现很多问题,由于这段时间工作上遇到了时间相关的问题,所以写一些记录。
阅读全文
posted @ 2021-11-04 16:21 riaris
阅读(137)
评论(0)
推荐(0)
2021年10月31日
[Hive][COUNT] 使用count后出现null问题排查
摘要: [Hive][COUNT] 使用count后出现null问题排查 问题概述 使用hive进行用户频次类数据分组提取时,最终的结果出现了全部为null的记录,同时也有全为0的记录,分析原因 v1HQL逻辑 with sup_tab as( 取出用户所用行为记录 ) select 用户id, count
阅读全文
posted @ 2021-10-31 14:07 riaris
阅读(733)
评论(0)
推荐(0)
2021年10月29日
[undo][spark]RDD&DataFrame 使用RDD避免shuffle&大量Join记录
摘要: 写在开头 由于自己对于大数据方面的知识只能说皮毛都没懂,很多问题不知道怎么解决和解释,所以有这么一个分类 该分类下只记录一些操作,以及粗略的解释,还有一些自己的思考以及顾虑,当作是记录自己从业的点滴吧。 任务场景 处理X个特征后拼接到原始表上,X * [id1,id2,raw_feature_1,.
阅读全文
posted @ 2021-10-29 16:42 riaris
阅读(134)
评论(0)
推荐(0)
2021年10月23日
[机器学习][特征工程]有关熵与相关性分析的记录
摘要: 熵 熵的本质是一个系统“内在的混乱程度”,是物理学的概念。 在信息论中,信息熵可以有以下两种理解方式 表征事物的不确定性 表征事件的信息量 事件与概率 先来举个例子,理解事件与概率之间的关系 猜小球事件 有一个不透明的袋子,其中有四种数量相等的小球,A,B,C,D, 现在,拿出一个小球,事件$P{拿
阅读全文
posted @ 2021-10-23 12:31 riaris
阅读(607)
评论(0)
推荐(0)
下一页
公告
点击右上角即可分享