摘要: Python apply函数 1、介绍 apply函数是pandas里面所有函数中自由度最高的函数。该函数如下: DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds) 该函数最有 阅读全文
posted @ 2019-07-05 20:48 fcyh 阅读(2359) 评论(0) 推荐(0) 编辑
摘要: Python Dataframe 分组排序和 Modin 1、按照其中一列进行排序 在dataframe中,按照其中的一列排序:比如q值倒排 (1)rank方法 (2)sort_values方法 2、按照其中多列进行排序 在dataframe中,按照其中的多列排序:比如q值倒排、经纪人ucid正排 阅读全文
posted @ 2019-07-05 20:40 fcyh 阅读(4047) 评论(0) 推荐(0) 编辑
摘要: Python 中的时间处理包datetime和arrow 在获取贝壳分的时候用到了时间处理函数,想要获取上个月时间包括年、月、日等 运行结果如下: 所以想通过一个方法来兼容n种情况是极度困难的,内部实现也会非常复杂,作为用户使用起来必然也很混乱,我们需要根据自己的业务场景选取最合适的包来进行处理。 阅读全文
posted @ 2019-07-05 20:27 fcyh 阅读(1402) 评论(0) 推荐(0) 编辑
摘要: hive中order by、distribute by、sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样,它只在一个reduce中进行所以数据量特别大的时候效率非常低。 而且当 阅读全文
posted @ 2019-07-05 20:15 fcyh 阅读(9043) 评论(0) 推荐(0) 编辑