2018年10月25日

摘要: sklearn.preprocessing 1. 数据预处理 无量纲化 将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler 无量纲化 将特征值转化为【0,1】 from sklearn.preprocessing import 阅读全文
posted @ 2018-10-25 17:36 happygril3 阅读(149) 评论(0) 推荐(0)
摘要: 一、K-means聚类步骤: (1)选择k个初始聚类中心 (2)计算每个对象与这k个中心各自的距离,按照最小距离原则分配到最邻近聚类 (3)使用每个聚类中的样本均值作为新的聚类中心 (4)重复步骤(2)和(3)直到聚类中心不再变化 (5)结束,得到k个聚类 二、评价聚类的指标: (1)inertia 阅读全文
posted @ 2018-10-25 15:59 happygril3 阅读(157) 评论(0) 推荐(0)
摘要: 基本原理:方差最大原理 通过正交变换将原相关性变量转化为不相关的变量 第一主成分:线性组合 方差最大 第二主成分:线性组合,COV(F1,F2)=0 步骤: 原始数据标准化:DataAdjust(m*n)【m个样本,n个变量】 计算样本的协方差矩阵【cov=(n*n)】 计算协方差矩阵的特征值和特征 阅读全文
posted @ 2018-10-25 14:59 happygril3 阅读(412) 评论(0) 推荐(0)
摘要: 名称 是否良好 是否男 A 1 1 B 1 1 C 1 0 D 0 1 E 0 1 熵:H(D)= -[2/5log(2/5)+3/5log(3/5)]=0.971 H(D)=3/5H(D1)+2/5H(D2)=-{3/5(2/3log1/3+1/3log1/3)+2/5(1log(1)}=0.55 阅读全文
posted @ 2018-10-25 13:50 happygril3 阅读(1072) 评论(0) 推荐(0)
摘要: boosting(提升法) 对于训练集中的每个样本建立全职W(i),当某个样本被错误分类概率很高时,样本的权重加大; 在迭代过程中,每一个迭代器都是一个弱分类器,我们需要用某种策略将其组合,作为最终模型。 bagging(套袋法) 从原始样本集随机抽取n个训练样本,共进行k轮抽取,得到k个训练集。( 阅读全文
posted @ 2018-10-25 11:38 happygril3 阅读(162) 评论(0) 推荐(0)
摘要: 理论: 从样本集(N个数据点)选出n个样本(有放回)建立分类器 重复m次,获得m个分类器 过程: 1. 样本的随机:从N个数据点中随机选择n个样本 2. 属性的随机:从所有属性中随机选择k个属性 3. 重复m次,,建立m颗决策树 4. m棵决策树形成随机森林,投票决定结果 参数: n_estimat 阅读全文
posted @ 2018-10-25 11:31 happygril3 阅读(226) 评论(0) 推荐(0)

导航