riaris - 博客园

摘要：一开始没有自信是理所当然的事情，积累下来的努力和达成的成果，就能铸就起自信，之后，只需要一小撮香料就行了阅读全文

posted @ 2021-10-29 18:21 riaris 阅读(33) 评论(0) 推荐(0)

2022年2月28日

[SQL][row_number() over ]row_number() over (partition by key1 order by key2 ASC) AS rank 与where联合使用时存在风险

摘要：结论当使用row_number()时，先确认key是否有重复，如果排序的键有重复，为了减少风险，建议使用rank dense_rank 代替 row_number() 相较于rank dense_rank 而言，对数目的编号存在随机性——当多条数目的key2相同时，则会随机给予数字编号顺序。这直阅读全文

posted @ 2022-02-28 11:03 riaris 阅读(133) 评论(0) 推荐(0)

2021年12月22日

[SparkSQL][COUNT(*COLS)]关于count(col1,col2)的使用记录

摘要：结论功能 count(col1, col2) 可以统计多个字段的非空记录要求 count()内含多个字段时，若有一个字段的记录为Null 则该条记录不会被统计 count()内含多个字段时，非sparksql引擎需要加distinct 字段限制 count()内含多个字段时，和以下语句不同 s 阅读全文

posted @ 2021-12-22 18:54 riaris 阅读(570) 评论(0) 推荐(0)

2021年12月1日

[sparkSQL][union]关于union相关的使用记录，奇怪的去重方法增加了

摘要： sql 中 Union相关说明结论 Union & Union all：功能：将两个要连接的 SQL 语句拼接在一起，要求：字段个数一样（强制），字段类型一致（非强制）int→double→string 输出：以第一个表的列名作为输出表的列名区别：union会对拼接结果去重，union al 阅读全文

posted @ 2021-12-01 11:33 riaris 阅读(1277) 评论(0) 推荐(0)

2021年11月24日

[spark][pyspark]拆分DataFrame中某列Array

摘要： getItem()语法 pyspark.sql.Column.getItem 描述 An expression that gets an item at position ordinal out of a list, or gets an item by key out of a dict. 示例阅读全文

posted @ 2021-11-24 12:33 riaris 阅读(1247) 评论(0) 推荐(0)

2021年11月10日

[spark][sql]Spark中使用RDD.toDF()由于数据类型不同带来的bug记录

摘要： Spark转换RDD到DF时，因数据类型不同带来的问题记录问题描述环境注意！！！在spark3+中，此bug是否还存在待证实。 spark2.4.5 pyspark 目标逻辑在使用Spark过程中，需要将保存数据列表的RDD转换为DataFrame写入hive表中。问题发生在列表数据转阅读全文

posted @ 2021-11-10 17:10 riaris 阅读(588) 评论(0) 推荐(0)

2021年11月4日

[特征工程][特征设计]注意时间因素对样本带来的影响

摘要：时间对样本的的影响背景数据挖掘方面不同于CV算法，产生的原始数据量非常大，有很多表都是以di结尾的增量表，每天都会更新，这就导致了数据“产生的时间点”，以及模型”预测的时间点“，样本”标签指定的时间“都即为重要，如果不注意就会出现很多问题，由于这段时间工作上遇到了时间相关的问题，所以写一些记录。阅读全文

posted @ 2021-11-04 16:21 riaris 阅读(179) 评论(0) 推荐(0)

2021年10月31日

[Hive][COUNT] 使用count后出现null问题排查

摘要： [Hive][COUNT] 使用count后出现null问题排查问题概述使用hive进行用户频次类数据分组提取时，最终的结果出现了全部为null的记录，同时也有全为0的记录，分析原因 v1HQL逻辑 with sup_tab as( 取出用户所用行为记录 ) select 用户id, count 阅读全文

posted @ 2021-10-31 14:07 riaris 阅读(780) 评论(0) 推荐(0)

2021年10月29日

[undo][spark]RDD&DataFrame 使用RDD避免shuffle&大量Join记录

摘要：写在开头由于自己对于大数据方面的知识只能说皮毛都没懂，很多问题不知道怎么解决和解释，所以有这么一个分类该分类下只记录一些操作，以及粗略的解释，还有一些自己的思考以及顾虑，当作是记录自己从业的点滴吧。任务场景处理X个特征后拼接到原始表上，X * [id1,id2,raw_feature_1,. 阅读全文

posted @ 2021-10-29 16:42 riaris 阅读(153) 评论(0) 推荐(0)

2021年10月23日

[机器学习][特征工程]有关熵与相关性分析的记录

摘要：熵熵的本质是一个系统“内在的混乱程度”，是物理学的概念。在信息论中，信息熵可以有以下两种理解方式表征事物的不确定性表征事件的信息量事件与概率先来举个例子，理解事件与概率之间的关系猜小球事件有一个不透明的袋子，其中有四种数量相等的小球，A，B，C，D，现在，拿出一个小球，事件$P{拿阅读全文

posted @ 2021-10-23 12:31 riaris 阅读(634) 评论(0) 推荐(0)

对知识保持敬畏

公告