摘要: 聚类指标 该 sklearn.metrics 模块实现了一些 loss, score 和 utility 函数. 更多信息请参阅 聚类性能度量 部分, 例如聚类, 以及用于二分聚类的 Biclustering 评测. 虚拟估计 在进行监督学习的过程中,简单的 sanity check(理性检查)包括 阅读全文
posted @ 2021-06-19 23:55 秋华 阅读(433) 评论(0) 推荐(0)
摘要: 该 sklearn.metrics 模块实现了一些 loss, score 以及 utility 函数以测量 regression(回归)的性能. 其中一些已经被加强以处理多个输出的场景: mean_squared_error, mean_absolute_error, explained_vari 阅读全文
posted @ 2021-06-19 23:52 秋华 阅读(1003) 评论(0) 推荐(0)
摘要: 在多分类学习中,每个样本可以具有与其相关联的任何数量的真实标签。目标是给予高分,更好地评价真实标签。 1. 覆盖误差 coverage_error 函数计算必须包含在最终预测中的标签的平均数,以便预测所有真正的标签。 如果您想知道有多少 top 评分标签,您必须通过平均来预测,而不会丢失任何真正的标 阅读全文
posted @ 2021-06-19 23:43 秋华 阅读(774) 评论(0) 推荐(0)
摘要: 分类指标 sklearn.metrics 模块实现了几个 loss, score, 和 utility 函数来衡量 classification (分类)性能。 某些 metrics (指标)可能需要 positive class (正类),confidence values(置信度值)或 bina 阅读全文
posted @ 2021-06-19 23:41 秋华 阅读(4566) 评论(0) 推荐(0)
摘要: 有 3 种不同的 API 用于评估模型预测的质量: Estimator score method(估计器得分的方法): Estimators(估计器)有一个 score(得分) 方法,为其解决的问题提供了默认的 evaluation criterion (评估标准)。 在这个页面上没有相关讨论,但是 阅读全文
posted @ 2021-06-19 23:12 秋华 阅读(2505) 评论(0) 推荐(0)
摘要: 接下来的部分列出了一些用于生成索引标号,用于在不同的交叉验证策略中生成数据划分的工具。 1. 交叉验证迭代器–循环遍历数据 假设一些数据是独立的和相同分布的 (i.i.d) 假定所有的样本来源于相同的生成过程,并假设生成过程没有记忆过去生成的样本。 在这种情况下可以使用下面的交叉验证器。 注意 尽管 阅读全文
posted @ 2021-06-19 22:10 秋华 阅读(792) 评论(0) 推荐(0)
摘要: 计算交叉验证的指标 使用交叉验证最简单的方法是在估计器和数据集上调用 cross_val_score 辅助函数。 下面的示例展示了如何通过分割数据,拟合模型和计算连续 5 次的分数(每次不同分割)来估计 linear kernel 支持向量机在 iris 数据集上的精度: >>> from skle 阅读全文
posted @ 2021-06-19 21:41 秋华 阅读(1311) 评论(0) 推荐(0)
摘要: 学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。 这种情况称为 overfitting(过拟合). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为 test 阅读全文
posted @ 2021-06-19 21:21 秋华 阅读(426) 评论(0) 推荐(0)
摘要: 另外一种将标称型特征转换为能够被scikit-learn中模型使用的编码是one-of-K, 又称为 独热码或dummy encoding。 这种编码类型已经在类OneHotEncoder中实现。该类把每一个具有n_categories个可能取值的categorical特征变换为长度为n_categ 阅读全文
posted @ 2021-06-19 19:20 秋华 阅读(1441) 评论(0) 推荐(0)
摘要: 在机器学习中,特征经常不是连续的数值型的而是标称型的(categorical)。举个示例,一个人的样本具有特征["male", "female"], ["from Europe", "from US", "from Asia"], ["uses Firefox", "uses Chrome", "u 阅读全文
posted @ 2021-06-19 19:14 秋华 阅读(1232) 评论(0) 推荐(0)
摘要: LabelEncoder 是一个可以用来将标签规范化的工具类,它可以将标签的编码值范围限定在[0,n_classes-1]. 这在编写高效的Cython程序时是非常有用的. LabelEncoder 可以如下使用: >>> from sklearn import preprocessing >>> 阅读全文
posted @ 2021-06-19 19:04 秋华 阅读(1349) 评论(0) 推荐(1)
摘要: Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。 1. 首先import包和实验数据: from sklearn.feature_selection import SelectKBest from sklearn.feature_s 阅读全文
posted @ 2021-06-19 18:49 秋华 阅读(1230) 评论(0) 推荐(0)
摘要: 卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。 很多不知道的人,一听到这个名词,会马上联想到, 啊?还要拿张卡来检验吗? 其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。 我常听到运营和分析师这样的对话, 阅读全文
posted @ 2021-06-19 18:41 秋华 阅读(774) 评论(0) 推荐(0)
摘要: 1. 准确的PCA和概率解释(Exact PCA and probabilistic interpretation) PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现 成分 和 分量 是同意词)的多变量数据集进行方差最大化的分解。 在 sc 阅读全文
posted @ 2021-06-19 18:25 秋华 阅读(1501) 评论(0) 推荐(0)
摘要: 特征哈希(相当于一种降维技巧) 类 FeatureHasher 是一种高速,低内存消耗的向量化方法,它使用了特征散列技术 ,或可称为 “散列法” (hashing trick)的技术。 代替在构建训练中遇到的特征的哈希表,如向量化所做的那样 FeatureHasher 将哈希函数应用于特征,以便直接 阅读全文
posted @ 2021-06-19 18:14 秋华 阅读(733) 评论(0) 推荐(0)
摘要: 来源:https://www.freesion.com/article/24301262498/ 本文介绍的是一种面对高基数类别特征的普适性方法:特征哈希(FeatureHasher)。目前这只是本人的一种想法,具体效果如何还需要在实际项目中验证。 如果说独热编码后新生成的特征数量会跟随类别数量而变 阅读全文
posted @ 2021-06-19 17:42 秋华 阅读(763) 评论(0) 推荐(0)
摘要: 在机器学习中,通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征,这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现: >>> import numpy as np >>> from sklearn.prepr 阅读全文
posted @ 2021-06-19 17:19 秋华 阅读(1628) 评论(0) 推荐(0)
摘要: 有两种类型的转换是可用的:分位数转换和幂函数转换。分位数和幂变换都基于特征的单调变换,从而保持了每个特征值的秩。 通过执行秩变换,分位数变换平滑了异常分布,并且比缩放方法受异常值的影响更小。但是它的确使特征间及特征内的关联和距离失真了。 幂变换则是一组参数变换,其目的是将数据从任意分布映射到接近高斯 阅读全文
posted @ 2021-06-19 17:14 秋华 阅读(3383) 评论(0) 推荐(0)
摘要: 在机器学习中,想要将一个已有的 Python 函数转化为一个转换器来协助数据清理或处理。可以使用 FunctionTransformer 从任意函数中实现一个转换器。例如,在一个管道中构建一个实现日志转换的转化器,这样做: >>> import numpy as np >>> from sklear 阅读全文
posted @ 2021-06-19 16:48 秋华 阅读(744) 评论(0) 推荐(0)
摘要: 特征二值化 是 将数值特征用阈值过滤得到布尔值 的过程。这对于下游的概率型模型是有用的,它们假设输入数据是多值 伯努利分布(Bernoulli distribution) 。例如这个示例 sklearn.neural_network.BernoulliRBM 。 即使归一化计数(又名术语频率)和TF 阅读全文
posted @ 2021-06-19 16:45 秋华 阅读(582) 评论(0) 推荐(0)