摘要:1.缺失值处理 1.1 删除:样本存在大量缺失值,直接删除样本,如物业管理费 1.2 填充:全局常量,统计方法(平均数,中位数,众数),机器学习模型 电梯:六楼及以下的没有电梯,六楼以上的有电梯 修建年份:经纬度相同的数据进行中位数填充 绿化率:众数填充 1.3 不处理 2.异常值处理 简单统计法,
阅读全文
摘要:熵(entropy) 是表示随机变量不确定性的度量(纯度),如果信息的不确定性越大,熵的值也就越大 信息增益(information gain):表示由于特征A使得对数据集D的分类的不确定性减少的程度。==》max 基尼指数:一个节点越“纯”,也就是说这个节点的样本越多属于同类,那么Gini指标越小
阅读全文
摘要:通过正交变换将一组相关性的变量数据转换为一组线性不相关的变量,转换后的变量被称为主成分。 将n维样本点转换为k维后,每一维上的样本方差都很大。 1.特征值和特征向量 A为n×n的方阵且有 其中λ为一标量,则称λ为向量v对应的特征值,也称v为特征值λ对应的特征向量。 2.对角矩阵 对角矩阵(diago
阅读全文
摘要:为了尽可能正确分类训练样本,又可能造成分支过多,造成过拟合 剪枝:主动剪掉一些分支来降低过拟合的风险 预剪枝:提前终止某些分支的生长 后剪枝:生成一颗完全数,再回头剪枝 1. 预剪枝 每次生长一次,都会在验证集上做一次预估,看看效果有没有提升;如果有提升,就生长,;如果没有,就停止 (1)根据信息增
阅读全文
摘要:1. 原理 1. 首先输入k的值,即我们希望将数据集经过聚类得到k个分组。 2. 从数据集中随机选择k个数据点作为初始大哥(质心,Centroid) 3. 对集合中每一个小弟,计算与每一个大哥的距离(距离的含义后面会讲),离哪个大哥距离近,就跟定哪个大哥。 4. 这时每一个大哥手下都聚集了一票小弟,
阅读全文
摘要:1. Label encoding Label encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 缺点:所有的标签都变成了数字,然后算法模型直接将根据其距离来考虑相似的数字,而不考虑标签的具体含义。 方案一:单列数据 from sk
阅读全文
摘要:1.正则化 (1) 随机森林 样本有放回随机采样,特征值采样(每个结点都采一次样,而不是一颗树采一次);剪枝,控制tree深度,控制gain或者gini变化大小以及控制结点样本数等情况,随机森林中没有剪枝操作,但是有max_depth,min_size等进行控制 (2)GBDT 和Adaboost一
阅读全文
摘要:https://zhuanlan.zhihu.com/p/58883095 1. 平方损失函数 平方损失函数标准形式如下: 特点: (1)经常应用与回归问题 2. 指数损失函数(exponential loss) 指数损失函数的标准形式如下: 特点: (1)对离群点、噪声非常敏感。经常用在AdaBo
阅读全文
摘要:https://www.cnblogs.com/wkang/p/9588360.html 一、FM背景 FM(Factorization Machine)主要目标是:解决数据稀疏的情况下,特征怎样组合的问题。 以一个广告分类的问题为例,根据用户画像、广告位以及一些其他的特征,来预测用户是否会点击广告
阅读全文
摘要:(1)基于L1惩罚项的模型 (2)主成分分析法(PCA) PCA是为了让映射后的样本具有最大的发散性;无监督的降维方法 from sklearn.decomposition import PCA #主成分分析法,返回降维后的数据 #参数n_components为主成分数目 PCA(n_compone
阅读全文
摘要:根据特征选择的形式又可以将特征选择方法分为3种: (1)Filter 1.1 方差选择法 使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。 from sklearn.feature_selection import VarianceThreshold #方差选择法,返回
阅读全文
摘要:map端数据倾斜:输入文件大小不一致 reduce端数据倾斜:partition不一致 小表要放在前面,大表放在后面 例如A表id=3有1条记录,B表id=3有10条记录。 首先读取v[0]发现是A表的记录,用了1次读取操作。然后再读取v[1]发现是B表的操作,这时v[0]和v[1]可以直接关联输出
阅读全文
摘要:先来举个例子,我们要预测一家人对电子游戏的喜好程度,逐一给各人在电子游戏喜好程度上打分,如下图所示。 训练出了2棵树tree1和tree2,类似之前gbdt的原理,两棵树的结论累加起来便是最终的结论 所以小孩的预测分数就是两棵树中小孩所落到的结点的分数相加:2 + 0.9 = 2.9。爷爷的预测分数
阅读全文
摘要:可以将Logistic Regression看做是仅含有一层神经元的单层的神经网络。 1.简化的两层神经网络分析 1.2.从输入层到隐藏层 连接输入层和隐藏层的是W1和b1。由X计算得到H十分简单,就是矩阵运算: (1*50)=(1*2)*(2*50)+(1*50) 在设定隐藏层为50维(也可以理解
阅读全文
摘要:逻辑回归假设因变量 y 服从伯努利分布, 线性回归假设因变量 y 服从高斯分布。 对线性回归的结果做一个在函数g上的转换,可以变化为逻辑回归。这个函数g在逻辑回归中我们一般取为sigmoid函数,形式如下: 即当z趋于正无穷时,g(z)趋于1,而当z趋于负无穷时,g(z)趋于0,这非常适合于我们的分
阅读全文
摘要:正则化的目的是限制参数过多或者过大,避免模型更加复杂,容易发生过拟合。因此需要在目标函数添加一些额外的惩罚项,即正则项。 添加惩罚项可看成是对损失函数中的某些参数做一些限制,根据惩罚项的不同可分为:L0范数惩罚、L1范数惩罚(参数稀疏性惩罚)、L2范数惩罚(权重衰减惩罚)。 L0范数惩罚:将其高阶部
阅读全文
摘要:(1)Adaboost 最优的w 处理的粒度是更新参数w,使得损失函数L(y,f(x))最小 (2)GBDT 最优的函数F(X) 处理粒度是更新函数F(X),使得损失函数L(y,F(X))最小。 GBDT分为两种: 都是迭代回归树 每棵树都在学习前N-1棵树尚存的不足 都是累加每颗树结果作为最终结果
阅读全文
摘要:梯度下降算法是求解最优化问题 梯度下降是优化一个损失函数L(y,f(x)),处理的粒度是更新参数w,使得最后的损失函数最小
阅读全文
摘要:(1)决策树 1 决策树算法? 2 什么是熵? 信息熵公式 3 信息增益公式及意义? 4 决策树处理连续值的方法 把连续值变量进行排序成(a1,a2,…an)再从(a1,a2)区间里取中位点A1作为分界来分裂数据,算信息增益率/基尼指数,从(a2,a3)区间里取中位点A2作为分界来分裂数据,算信息增
阅读全文
摘要:分类与回归两种类型的问题 (1)主体思想:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。 1. 随机选择样本 给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集。 2. 随机选择特征 总量为M的特征向量中,随机选择m个
阅读全文