导航

随笔分类 -  特征工程

机器学习的特征工程
摘要:转载:https://www.toutiao.com/i6642477603657613831/ 1 如果训练/测试都来自同一时间线,那么就可以非常巧妙地使用特性。虽然这只是一个kaggle的案例,但可以利用这个优势。例如:在出租车出行持续时间挑战赛中,从训练数据中随机抽取测试数据。在这种情况下,可 阅读全文

posted @ 2019-01-05 14:13 wzd321 阅读(2663) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2018-12-06 23:01 wzd321 阅读(198) 评论(0) 推荐(0)

摘要:黑产监控中,需要尽可能做到尽可能少的误伤和尽可能准确地探测,可以选择“在FPR较低时的TPR加权平均值”作为平均指标。 根据混淆矩阵计算TPR(覆盖率)和FPR(打扰率): 覆盖率:TPR = TP /(TP + FN) 打扰率:FPR = FP /(FP + TN) TP、FN、FP、TN分别为真 阅读全文

posted @ 2018-11-20 11:32 wzd321 阅读(1146) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2018-11-05 21:32 wzd321 阅读(325) 评论(0) 推荐(0)

该文被密码保护。

posted @ 2018-11-03 16:54 wzd321 阅读(4) 评论(0) 推荐(0)

摘要:统计型特征: 组合型特征: 1. 拼接型:简单的组合特征:例如挖掘用户对某种类型的喜爱,对用户和类型做拼接;正负权重,代表喜欢或不喜欢某种类型. - user_id&&category: 10001&&女裙 10002&&男士牛仔 - user_id&&style: 10001&&蕾丝 10002& 阅读全文

posted @ 2018-10-31 20:09 wzd321 阅读(738) 评论(0) 推荐(0)

摘要:转载:https://zhuanlan.zhihu.com/p/38440477 转载:https://blog.csdn.net/starzhou/article/details/78930490 转载:https://www.cnblogs.com/wzdLY/p/9649101.html 1. 阅读全文

posted @ 2018-10-25 21:58 wzd321 阅读(41691) 评论(3) 推荐(1)

摘要:转载:https://www.cnblogs.com/itdyb/p/8869163.html 阅读全文

posted @ 2018-10-23 23:07 wzd321 阅读(1055) 评论(0) 推荐(0)

摘要:转载:https://blog.csdn.net/aliceyangxi1987/article/details/71079473 阅读全文

posted @ 2018-10-23 08:58 wzd321 阅读(264) 评论(0) 推荐(0)

摘要:转载:https://blog.csdn.net/u010665216/article/details/78528261 首先,我们直接构造赛题结果:真实数据与预测数据: 我们将预测值从小到大排列: 我们对排序后的真实值累计求和: 我们将数据Normalization到0,1之间,并画出45度线: 阅读全文

posted @ 2018-10-20 15:15 wzd321 阅读(1830) 评论(0) 推荐(0)

摘要:模型评估主要分为离线评估和在线评估。针对分类、排序、回归、序列预测等不同类型的机器学习问题,模型评估指标的选择也有所不同。要评估模型的效果,就需要将模型预测结果f(X)和真实标注Y进行比较,评估指标定义为f(X)和Y的函数:score = metric(f(X),Y)。模型的好坏是相对的,在对比不同 阅读全文

posted @ 2018-10-11 11:27 wzd321 阅读(1441) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2018-10-04 15:18 wzd321 阅读(530) 评论(0) 推荐(0)

摘要:转载:https://www.toutiao.com/i6606293133602849284/ 转载:https://blog.csdn.net/Q2605894893/article/details/81327027 一般的缺失值填充方法: 连续变量:中位数、平均数 离散变量:众数 上述的方法会 阅读全文

posted @ 2018-10-02 10:36 wzd321 阅读(2018) 评论(0) 推荐(0)

摘要:转载:https://blog.csdn.net/qq_31813549/article/details/79964973 过采样 1.最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是: 从少数类的样本中进行随机采样来增加新的样本: 2.相对于采样随机的方法进行过采样, 还有两种比 阅读全文

posted @ 2018-10-01 11:16 wzd321 阅读(1223) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2018-09-28 22:05 wzd321 阅读(318) 评论(0) 推荐(0)

摘要:train loss 与 test loss 结果分析: train loss 不断下降,test loss不断下降,说明网络仍在学习; train loss 不断下降,test loss趋于不变,说明网络过拟合; train loss 趋于不变,test loss不断下降,说明数据集100%有问题 阅读全文

posted @ 2018-09-22 15:05 wzd321 阅读(3215) 评论(0) 推荐(0)

摘要:转载:https://www.cnblogs.com/jasonfreak/p/5448385.html 特征选择主要从两个方面入手: 特征是否发散:特征发散说明特征的方差大,能够根据取值的差异化度量目标信息. 特征与目标相关性:优先选取与目标高度相关性的. 对于特征选择,有时候我们需要考虑分类变量 阅读全文

posted @ 2018-09-22 10:16 wzd321 阅读(14913) 评论(0) 推荐(1)

摘要:分类特征:定序、定类,编码分类特征,考虑距离度量的含义。此处只讨论高基数的定类编码: 区间计数方案 特征哈希方案: 实体嵌入方案:这部分我会根据一片论文进行详细的讲解,将会在后面推出。 阅读全文

posted @ 2018-09-18 21:03 wzd321 阅读(1127) 评论(0) 推荐(0)

摘要:二值化处理:将细粒度的度量转化成粗粒度的度量,使得特征的差异化更大。 特征多项式交互:捕获特征之间的相关性 数据分布倾斜的处理: log变化:log变化倾向于拉高那些落在较低的幅度范围内自变量的取值,压缩那些落在较高的幅度范围内自变量的取值,log变化能够稳定数据的方差,使数据的分布接近于正太分布并 阅读全文

posted @ 2018-09-18 20:27 wzd321 阅读(1379) 评论(0) 推荐(0)

摘要:卡方分布—chi-square distribution, χ2-distribution: 若k个独立的随机变量Z1, Z2,..., Zk 满足标准正态分布 N(0,1) , 则这k个随机变量的平方和: 为服从自由度为k的卡方分布,记作: 或者 卡方检验—χ2检验是以χ2分布为基础的一种假设检验 阅读全文

posted @ 2018-09-14 21:33 wzd321 阅读(4778) 评论(0) 推荐(0)