machine learning - 随笔分类 - happygril3

GridSearchCV

摘要：(一)网格搜索: GridSearchCV: 网格搜索，搜索的是参数，即在指定的参数范围内，按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数要求遍历所有可能参数的组合，非常耗时交叉验证将训练数据集划分为K份，K一般为10· 依次取其中一份为验证集，其余为阅读全文

posted @ 2019-07-12 10:21 happygril3 阅读(405) 评论(0) 推荐(0)

指标的重要性排序

摘要：原理：若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。过程：（1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1【分类为错误率,回归为MSE】（2）随机对袋外数阅读全文

posted @ 2018-12-03 21:34 happygril3 阅读(687) 评论(0) 推荐(0)

回归树的提升树

摘要：阅读全文

posted @ 2018-11-27 17:41 happygril3 阅读(129) 评论(0) 推荐(0)

GBDT原理

摘要：样本编号花萼长度(cm) 花萼宽度(cm) 花瓣长度(cm) 花瓣宽度花的种类 1 5.1 3.5 1.4 0.2 山鸢尾 2 4.9 3.0 1.4 0.2 山鸢尾 3 7.0 3.2 4.7 1.4 杂色鸢尾 4 6.4 3.2 4.5 1.5 杂色鸢尾 5 6.3 3.3 6.0 2.5 阅读全文

posted @ 2018-11-27 17:39 happygril3 阅读(150) 评论(0) 推荐(0)

GBDT-梯度提升树

摘要：随机森林：bagging思想，可以并行，训练集权值相同可以是分类树，回归树输出结果（分类树）：多数投票（回归树）：均值减少方差对异常数据不敏感 GBDT：拟合损失函数 boosting思想，只能串行，训练集权值不同以CART为基学习器只能是回归树输出结果：所有结果的累加或是加权累加阅读全文

posted @ 2018-11-27 16:31 happygril3 阅读(167) 评论(0) 推荐(0)

随机森林_调参

摘要：1. grid search网格搜索优点：效果较好，得到候选参数里的全局最优化结果缺点：计算复杂 2. 随机网格搜索：防止网格搜索间隔过大而调过最优值 3. 基于贪心的坐标下降梯度搜索：固定其他参数，把某个参数取的最好，迭代一遍得到最终结果。优点：计算量少缺点：陷入局部最优解阅读全文

posted @ 2018-11-27 10:31 happygril3 阅读(236) 评论(0) 推荐(0)

样本均衡

摘要：解决样本不均衡问题： 1. 上采样：增加原来样本数量较少的样本，直接复制原来的样本样本较少 2. 下采样：较少原来样本数量较多的样本，丢弃多于的样本样本较多每次正样本数量不变，随机选择等量的不同负样本进行模型训练，反复几次，训练多个模型，投票决定最终的分类 3. 合成样本：增加原来样本数量较少阅读全文

posted @ 2018-11-27 10:02 happygril3 阅读(322) 评论(0) 推荐(0)

k-means聚类

摘要：算法： (1) 随机选择k个初始中心点。(2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。 (3) 把中心点转移到得到的cluster内部的数据点的平均位置。(4) 重复以上步骤，直到每一类中心在每次迭代后变化不大为止。 k值确定：拐点图：组内误差平方和，SSE（sum 阅读全文

posted @ 2018-11-26 11:28 happygril3 阅读(237) 评论(0) 推荐(0)

贝叶斯分类

摘要：原理：基于条件概率，适用于不同维度之间相关性较小的时候，比较容易解释。公式：p(c/x) = p(c,x) / p(x) = p(x/c)*p(c) / p(x) 解释：假设某个体有n个特征（feature),分别为F1,F2,........Fn 有m个类别（catogery)，分别为C1,C 阅读全文

posted @ 2018-11-22 18:11 happygril3 阅读(335) 评论(0) 推荐(0)

损失函数

摘要：最下二乘法平方损失函数： L( Y, f(X) ) = ∑【Y- f(X)】^2 逻辑回归对数损失函数： L( Y, P(Y|X) )=-log P(Y|X) 朴素贝叶斯 0/1损失函数： L( Y, P(Y|X) )=1，if Y!= f(X) 0, if Y=f(X) Adboost 指数损阅读全文

posted @ 2018-11-22 15:58 happygril3 阅读(97) 评论(0) 推荐(0)

降维

摘要：#CPA 无监督,不利用类别标签from sklearn.decomposition import PCAdata_CPA=PCA(n_components=2).fit_transform(iris.data)# print('data_CPA',data_CPA)#线性判别法有监督,利用数据的阅读全文

posted @ 2018-11-15 18:37 happygril3 阅读(133) 评论(0) 推荐(0)

特征选择

摘要：#特征选择# (1)filter#1.1 方差：先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征from sklearn.feature_selection import VarianceThresholddata_var=VarianceThreshold(threshold=3).f 阅读全文

posted @ 2018-11-15 18:37 happygril3 阅读(259) 评论(0) 推荐(0)

数据标准化_1

摘要：from sklearn.datasets import load_irisiris=load_iris()#Z-score 数据标准化from sklearn.preprocessing import StandardScalerdata_standard=StandardScaler().fit 阅读全文

posted @ 2018-11-15 18:14 happygril3 阅读(147) 评论(0) 推荐(0)

偏差和方差

摘要：误差（泛化误差）=偏差(bias),+方差(variance) +噪声(noise) 偏差：【预测值-真实值的偏离程度】--【算法的拟合能力】--boosting Boosting使loss减少，可以降低bias。这里的模型之间并不独立，所以不能显著减少variance 方差：【结果的波动程度】-- 阅读全文

posted @ 2018-11-15 15:44 happygril3 阅读(431) 评论(0) 推荐(0)

数据标准化

摘要：意义： 1. 数据的量纲不同，数量级别差别很大 2. 平衡各特征的贡献：距离、协方差，是因为要使各特征贡献一致所以使用标准化 3. 加快梯度下降求最优解的速度方法： 1.min-max标准化：比较适用在数值比较集中的情况不涉及距离度量、协方差计算、数据不符合正太分布的时候 2. z-score 阅读全文

posted @ 2018-11-15 15:08 happygril3 阅读(196) 评论(0) 推荐(0)

逻辑回归_1

摘要：sklearn.linear_model.LogisticRegression penalty=l2, # 惩罚项，L1作用是产生少量的特征，而其他特征都是0，常用于特征选择；L2作用是选择较多的特征，使他们都趋近于0。 dual=False, # 对偶方法（原始问题和对偶问题），用于求解线性多核（阅读全文

posted @ 2018-10-29 15:49 happygril3 阅读(155) 评论(0) 推荐(0)

正则化

摘要：监督学习可以看做最小化下面的目标函数： L1正则化和L2正则化可以看做是损失函数的惩罚项，对损失函数中的某些参数做一些限制第1项为经验风险，即模型f(x)关于训练数据集的平均损失；第2项为正则化项，去约束我们的模型更加简单（L1范数让W等于0，L2范数让W都接近于0，越小的参数说明模型越简单，阅读全文

posted @ 2018-10-29 15:02 happygril3 阅读(108) 评论(0) 推荐(0)

决策树

摘要：（1）建树 1. 选择属性 ID3算法用的是信息增益，C4.5算法用信息增益率；CART算法使用基尼系数 2. 选择属性的最优分割点 ID3算法：使用信息增益作为分裂的规则，信息增益越大，则选取该分裂规则。多分叉树缺点：归纳偏置问题： ID3算法会偏向于选择类别较多的属性另外输入变量必须是分类变阅读全文

posted @ 2018-10-26 11:42 happygril3 阅读(109) 评论(0) 推荐(0)

神经网络_2

摘要：1. 左边蓝色的圆圈叫“输入层”，中间橙色的不管有多少层都叫“隐藏层”，右边绿色的是“输出层”。 2. 每个圆圈，都代表一个神经元，也叫节点(Node)。 3. 输出层可以有多个节点，多节点输出常常用于分类问题。 4. 理论证明，任何多层网络可以用三层网络近似地表示。 (2) 激活函数 1. Sig 阅读全文

posted @ 2018-10-26 10:36 happygril3 阅读(209) 评论(0) 推荐(0)

神经网络_1

摘要：梯度下降法(Gradient Descent)： 1.假设有一堆按一定规律分布的样本点，用直线拟合， 2.先随意画一条直线，分别计算每个样本点和直线上对应点的距离(误差)，求出所有点的误差之和，然后不断旋转和平移，直到误差最小时为止 3.在旋转平移过程中，当误差越来越小时，旋转或移动的量也跟着逐渐变阅读全文

posted @ 2018-10-26 10:15 happygril3 阅读(170) 评论(0) 推荐(0)

happygril3

随笔分类 - machine learning

导航

公告