随笔分类 -  machine learning

上一页 1 2

摘要:sklearn.preprocessing 1. 数据预处理 无量纲化 将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler 无量纲化 将特征值转化为【0,1】 from sklearn.preprocessing import 阅读全文

posted @ 2018-10-25 17:36 happygril3 阅读(153) 评论(0) 推荐(0)

摘要:一、K-means聚类步骤: (1)选择k个初始聚类中心 (2)计算每个对象与这k个中心各自的距离,按照最小距离原则分配到最邻近聚类 (3)使用每个聚类中的样本均值作为新的聚类中心 (4)重复步骤(2)和(3)直到聚类中心不再变化 (5)结束,得到k个聚类 二、评价聚类的指标: (1)inertia 阅读全文

posted @ 2018-10-25 15:59 happygril3 阅读(159) 评论(0) 推荐(0)

摘要:基本原理:方差最大原理 通过正交变换将原相关性变量转化为不相关的变量 第一主成分:线性组合 方差最大 第二主成分:线性组合,COV(F1,F2)=0 步骤: 原始数据标准化:DataAdjust(m*n)【m个样本,n个变量】 计算样本的协方差矩阵【cov=(n*n)】 计算协方差矩阵的特征值和特征 阅读全文

posted @ 2018-10-25 14:59 happygril3 阅读(415) 评论(0) 推荐(0)

摘要:名称 是否良好 是否男 A 1 1 B 1 1 C 1 0 D 0 1 E 0 1 熵:H(D)= -[2/5log(2/5)+3/5log(3/5)]=0.971 H(D)=3/5H(D1)+2/5H(D2)=-{3/5(2/3log1/3+1/3log1/3)+2/5(1log(1)}=0.55 阅读全文

posted @ 2018-10-25 13:50 happygril3 阅读(1075) 评论(0) 推荐(0)

摘要:boosting(提升法) 对于训练集中的每个样本建立全职W(i),当某个样本被错误分类概率很高时,样本的权重加大; 在迭代过程中,每一个迭代器都是一个弱分类器,我们需要用某种策略将其组合,作为最终模型。 bagging(套袋法) 从原始样本集随机抽取n个训练样本,共进行k轮抽取,得到k个训练集。( 阅读全文

posted @ 2018-10-25 11:38 happygril3 阅读(164) 评论(0) 推荐(0)

摘要:from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler from sklearn.model_se 阅读全文

posted @ 2018-10-24 18:35 happygril3 阅读(234) 评论(0) 推荐(0)

摘要:1、简介 孤立森林(Isolation Forest)是另外一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。 在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点。 因为那 阅读全文

posted @ 2018-10-17 10:35 happygril3 阅读(1774) 评论(0) 推荐(0)

摘要:x = np.arange(1, 17, 1)y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42, 10.50, 10.55, 10.58, 10.60])df=pd.Dat 阅读全文

posted @ 2018-09-28 10:50 happygril3 阅读(124) 评论(0) 推荐(0)

摘要:x=[1 ,1 ,4, 4, 5 ,7, 7, 7, 9] res=pd.cut(x,bins=4,include_lowest=True)#[(0.991, 3.0], (0.991, 3.0], (3.0, 5.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (5 阅读全文

posted @ 2018-09-17 10:55 happygril3 阅读(89) 评论(0) 推荐(0)

摘要:import numpy as npimport pandas as pdimport math #将二进制转化为十进制 x∈[0,10]def b2d(b): t = 0 for j in range(len(b)): t += b[j] * (math.pow(2, j)) t = t * 10 阅读全文

posted @ 2018-09-15 20:36 happygril3 阅读(324) 评论(0) 推荐(0)

摘要:https://blog.csdn.net/weishiym/article/details/79629329 (1)数据清洗 1. 清洗异常数据 2. 采样 数据不均匀 样本权重 (2)预处理 1. 单个特征 : 归一化 离散化 Dummy Coding 缺失值 数据变换 :log,指数,Box- 阅读全文

posted @ 2018-07-31 10:18 happygril3 阅读(112) 评论(0) 推荐(0)

摘要:空值填充算法 编写人员:夏思彬,刘泽宁 简介 造成数据缺失的原因 现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的: 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。 信息被遗漏。 阅读全文

posted @ 2018-07-18 11:39 happygril3 阅读(1063) 评论(0) 推荐(0)

摘要:https://www.cnblogs.com/gatherstars/p/6084696.html 阅读全文

posted @ 2018-07-13 15:53 happygril3 阅读(96) 评论(0) 推荐(0)

摘要:空值填充算法 简介 造成数据缺失的原因 现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的: 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。 信息被遗漏。可能是因为输入时认为不重要 阅读全文

posted @ 2018-07-11 13:25 happygril3 阅读(602) 评论(0) 推荐(0)

摘要:https://blog.csdn.net/u010657489/article/details/51952785 https://zhuanlan.zhihu.com/p/28672955 https://www.analyticsvidhya.com/blog/2016/03/complete- 阅读全文

posted @ 2018-07-11 13:19 happygril3 阅读(289) 评论(0) 推荐(0)

摘要:安装连接:https://www.zhihu.com/question/46377605 软件连接:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 选择与python匹配的版本:xgboost-0.72-cp36-cp36m-win_amd64 阅读全文

posted @ 2018-07-11 11:43 happygril3 阅读(175) 评论(0) 推荐(0)

上一页 1 2

导航