上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 56 下一页
摘要: SHAP(SHapley Additive exPlanations)是一种统一的方法来解释任何机器学习模型的输出。SHAP将博弈论与局部解释联系起来,将以前的几种方法结合起来,并根据预期表示唯一可能的一致且局部准确的加法特征归因方法(详见SHAP NIPS论文)。 部分依赖图显示了目标相应和一组特 阅读全文
posted @ 2019-07-10 19:01 nxf_rabbit75 阅读(1362) 评论(0) 推荐(0)
摘要: 1.bagging减少variance Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立),所以bagging后的bias和单个子模型的 阅读全文
posted @ 2019-07-10 16:51 nxf_rabbit75 阅读(1112) 评论(0) 推荐(0)
摘要: 参考文献: 【1】Pandas知识点脑图汇总 阅读全文
posted @ 2019-07-09 15:06 nxf_rabbit75 阅读(415) 评论(0) 推荐(0)
摘要: 二.分类图 1. 分类散点图 (1)散点图striplot(kind='strip') 方法1: seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, jitter=True, dodge 阅读全文
posted @ 2019-07-09 14:39 nxf_rabbit75 阅读(2800) 评论(0) 推荐(0)
摘要: 一、数据探索 1.数据读取 遍历文件夹,读取文件夹下各个文件的名字:os.listdir() 方法:用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。 1.1 CSV格式数据 详细说明 (1)读取 ### python导入csv 阅读全文
posted @ 2019-07-08 00:06 nxf_rabbit75 阅读(8831) 评论(0) 推荐(8)
摘要: (一)数值特征 数值特征(numerical feature),可以是连续的(continuous),也可以是离散的(discrete),一般表示为一个实数值。 例:年龄、价格、身高、体重、测量数据。 不同算法对于数值特征的处理要求不同。下文中的一些数据处理方法,因为是针对某一特征列的单调变换,所以 阅读全文
posted @ 2019-07-06 10:53 nxf_rabbit75 阅读(5147) 评论(1) 推荐(3)
摘要: 一.查看变量的缺失值(missing value,空值)个数以及所占比例 连续型数据探索 二.画频数占比分布图,查看样本在该特征值上的分布 根据连续变量的值域范围,将该变量分成10箱,就是分成10段,箱数可自由选择; 统计每一箱内样本的频数占比:该箱内样本个数/总样本个数。然后将每一箱的频数比例画出 阅读全文
posted @ 2019-07-06 09:18 nxf_rabbit75 阅读(1777) 评论(0) 推荐(0)
摘要: 参考文献: 【1】Python决策树可视化:GraphViz's executables not found的解决方法 阅读全文
posted @ 2019-07-04 19:38 nxf_rabbit75 阅读(7964) 评论(0) 推荐(0)
摘要: 参考文献: 【1】pivot_table 阅读全文
posted @ 2019-07-04 09:48 nxf_rabbit75 阅读(199) 评论(0) 推荐(0)
摘要: 或者写在一行 参考文献: 【1】pandas 显示不全问题 阅读全文
posted @ 2019-07-03 18:59 nxf_rabbit75 阅读(1798) 评论(0) 推荐(0)
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 56 下一页