会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Bo_hemian
归纳以知新
管理
上一页
1
2
3
4
2018年10月29日
pandas:apply和transform方法的性能比较
摘要: 1. apply与transform 首先讲一下apply() 与transform()的相同点与不同点 相同点: 都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。 不同点: apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注
阅读全文
posted @ 2018-10-29 22:05 Bo_hemian
阅读(14330)
评论(0)
推荐(3)
2018年10月21日
FFM算法解析及Python实现
摘要: 1. 什么是FFM? 通过引入field的概念,FFM把相同性质的特征归于同一个field,相当于把FM中已经细分的feature再次进行拆分从而进行特征组合的二分类模型。 2. 为什么需要FFM? 在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行
阅读全文
posted @ 2018-10-21 00:28 Bo_hemian
阅读(12608)
评论(5)
推荐(3)
2018年10月11日
pandas:对字符串类型做差分比较
摘要: 1. 问题需求 某种行为最常发生时段、最少发生时段与X天前是否一致 需求变形:判断上下行数据是否一致 2. 预备知识 2.1 Series.ne(Series) 判断两个Series是否相等 2.2 DataFrame.shift() 按行或列移动,默认向下按行移动。 2.3 DataFrame.b
阅读全文
posted @ 2018-10-11 20:32 Bo_hemian
阅读(3242)
评论(0)
推荐(0)
2018年10月10日
pandas:由列层次化索引延伸的一些思考
摘要: 1. 删除列层次化索引 用pandas利用df.groupby.agg() 做聚合运算时遇到一个问题:产生了列方向上的两级索引,且需要删除一级索引。具体代码如下: action_info 表结果如下: 删除列的层次化索引操作如下: 2. agg()与apply()的区别 以 student_acti
阅读全文
posted @ 2018-10-10 18:43 Bo_hemian
阅读(1176)
评论(0)
推荐(0)
2018年10月8日
机器学习中的异常检测手段
摘要: 1. 异常检测介绍 总体来讲,异常检测问题可以概括为两类:一是对结构化数据的异常检测,二是对非结构化数据的异常检测。 对结构化数据的异常检测的解决思想主要是通过找出与正常数据集差异较大的离群点,把离群点作为异常点。常常面临的问题有二:一是需要定义一个清晰的决策边界,从而界定正常点与异常点;二是维数灾
阅读全文
posted @ 2018-10-08 10:59 Bo_hemian
阅读(18972)
评论(0)
推荐(0)
2018年9月18日
GBDT+LR算法解析及Python实现
摘要: 1. GBDT + LR 是什么 本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。
阅读全文
posted @ 2018-09-18 19:43 Bo_hemian
阅读(60925)
评论(5)
推荐(10)
2018年9月16日
模型性能提升操作
摘要: 看了一些别人的思路,总结了一些模型性能提升的操作并完成python实现。 1. 行空缺值的处理 常规方法 统计每行数据的空缺值,如果空缺值数量超过阈值,则剔除此行数据。 改进方法 考虑特征重要度的因素。遵循一个原则:特征重要度越高,对这一特征下的空缺值容忍程度越低。 特征重要度的评估手段 1.1 输
阅读全文
posted @ 2018-09-16 19:06 Bo_hemian
阅读(2135)
评论(0)
推荐(1)
2018年9月13日
/usr/bin/python: can't decompress data; zlib not available 的异常处理
摘要: 1. 问题背景 使用Pycharm连接远程服务器端pipenv虚拟环境的python解释器,运行python spark脚本时报错如下错误: 2018-09-12 23:56:00 ERROR Executor:91 - Exception in task 0.0 in stage 0.0 (TID
阅读全文
posted @ 2018-09-13 01:00 Bo_hemian
阅读(3677)
评论(0)
推荐(0)
2018年9月8日
FM算法解析及Python实现
摘要: 1. 什么是FM? FM即Factor Machine,因子分解机。 2. 为什么需要FM? 1、特征组合是许多机器学习建模过程中遇到的问题,如果对特征直接建模,很有可能会忽略掉特征与特征之间的关联信息,因此,可以通过构建新的交叉特征这一特征组合方式提高模型的效果。 2、高维的稀疏矩阵是实际工程中常
阅读全文
posted @ 2018-09-08 19:01 Bo_hemian
阅读(41517)
评论(64)
推荐(13)
2018年9月3日
排序算法:快速排序解析及Python实现
摘要: 关键词:分而治之、递归、计算速度、基准值 1. 什么是分而治之? 1.1 分而治之(divide and conquer)一种递归式方法 1.2 找出基线条件,这种条件必须尽可能简单 1.3 不断将问题分解为简单问题,直到问题满足极基线条件 2. 算法计算时间 2.1 最好情况: 假设数组的长度为0
阅读全文
posted @ 2018-09-03 01:41 Bo_hemian
阅读(821)
评论(0)
推荐(0)
上一页
1
2
3
4