上一页 1 ··· 246 247 248 249 250 251 252 253 254 ··· 385 下一页
摘要: 学习预测函数的参数,并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数,但对于尚未出现过的数据它则无法预测出任何有用的信息。 这种情况称为 overfitting(过拟合). 为了避免这种情况,在进行(监督)机器学习实验时,通常取出部分可利用数据作为 test 阅读全文
posted @ 2021-06-19 21:21 秋华 阅读(424) 评论(0) 推荐(0)
摘要: 另外一种将标称型特征转换为能够被scikit-learn中模型使用的编码是one-of-K, 又称为 独热码或dummy encoding。 这种编码类型已经在类OneHotEncoder中实现。该类把每一个具有n_categories个可能取值的categorical特征变换为长度为n_categ 阅读全文
posted @ 2021-06-19 19:20 秋华 阅读(1441) 评论(0) 推荐(0)
摘要: 在机器学习中,特征经常不是连续的数值型的而是标称型的(categorical)。举个示例,一个人的样本具有特征["male", "female"], ["from Europe", "from US", "from Asia"], ["uses Firefox", "uses Chrome", "u 阅读全文
posted @ 2021-06-19 19:14 秋华 阅读(1232) 评论(0) 推荐(0)
摘要: LabelEncoder 是一个可以用来将标签规范化的工具类,它可以将标签的编码值范围限定在[0,n_classes-1]. 这在编写高效的Cython程序时是非常有用的. LabelEncoder 可以如下使用: >>> from sklearn import preprocessing >>> 阅读全文
posted @ 2021-06-19 19:04 秋华 阅读(1349) 评论(0) 推荐(1)
摘要: Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性。今天我们先开看一下如何用卡方检验实现特征选择。 1. 首先import包和实验数据: from sklearn.feature_selection import SelectKBest from sklearn.feature_s 阅读全文
posted @ 2021-06-19 18:49 秋华 阅读(1230) 评论(0) 推荐(0)
摘要: 卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。 很多不知道的人,一听到这个名词,会马上联想到, 啊?还要拿张卡来检验吗? 其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。 我常听到运营和分析师这样的对话, 阅读全文
posted @ 2021-06-19 18:41 秋华 阅读(774) 评论(0) 推荐(0)
摘要: 1. 准确的PCA和概率解释(Exact PCA and probabilistic interpretation) PCA 用于对具有一组连续正交分量(Orthogonal component 译注: 或译为正交成分,下出现 成分 和 分量 是同意词)的多变量数据集进行方差最大化的分解。 在 sc 阅读全文
posted @ 2021-06-19 18:25 秋华 阅读(1500) 评论(0) 推荐(0)
摘要: 特征哈希(相当于一种降维技巧) 类 FeatureHasher 是一种高速,低内存消耗的向量化方法,它使用了特征散列技术 ,或可称为 “散列法” (hashing trick)的技术。 代替在构建训练中遇到的特征的哈希表,如向量化所做的那样 FeatureHasher 将哈希函数应用于特征,以便直接 阅读全文
posted @ 2021-06-19 18:14 秋华 阅读(733) 评论(0) 推荐(0)
摘要: 来源:https://www.freesion.com/article/24301262498/ 本文介绍的是一种面对高基数类别特征的普适性方法:特征哈希(FeatureHasher)。目前这只是本人的一种想法,具体效果如何还需要在实际项目中验证。 如果说独热编码后新生成的特征数量会跟随类别数量而变 阅读全文
posted @ 2021-06-19 17:42 秋华 阅读(763) 评论(0) 推荐(0)
摘要: 在机器学习中,通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。一个简单通用的办法是使用多项式特征,这可以获得特征的更高维度和互相间关系的项。这在 PolynomialFeatures 中实现: >>> import numpy as np >>> from sklearn.prepr 阅读全文
posted @ 2021-06-19 17:19 秋华 阅读(1627) 评论(0) 推荐(0)
上一页 1 ··· 246 247 248 249 250 251 252 253 254 ··· 385 下一页