摘要:sklearn.preprocessing 1. 数据预处理 无量纲化 将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler 无量纲化 将特征值转化为【0,1】 from sklearn.preprocessing import
阅读全文
摘要:一、K-means聚类步骤: (1)选择k个初始聚类中心 (2)计算每个对象与这k个中心各自的距离,按照最小距离原则分配到最邻近聚类 (3)使用每个聚类中的样本均值作为新的聚类中心 (4)重复步骤(2)和(3)直到聚类中心不再变化 (5)结束,得到k个聚类 二、评价聚类的指标: (1)inertia
阅读全文
摘要:基本原理:方差最大原理 通过正交变换将原相关性变量转化为不相关的变量 第一主成分:线性组合 方差最大 第二主成分:线性组合,COV(F1,F2)=0 步骤: 原始数据标准化:DataAdjust(m*n)【m个样本,n个变量】 计算样本的协方差矩阵【cov=(n*n)】 计算协方差矩阵的特征值和特征
阅读全文
摘要:名称 是否良好 是否男 A 1 1 B 1 1 C 1 0 D 0 1 E 0 1 熵:H(D)= -[2/5log(2/5)+3/5log(3/5)]=0.971 H(D)=3/5H(D1)+2/5H(D2)=-{3/5(2/3log1/3+1/3log1/3)+2/5(1log(1)}=0.55
阅读全文
摘要:boosting(提升法) 对于训练集中的每个样本建立全职W(i),当某个样本被错误分类概率很高时,样本的权重加大; 在迭代过程中,每一个迭代器都是一个弱分类器,我们需要用某种策略将其组合,作为最终模型。 bagging(套袋法) 从原始样本集随机抽取n个训练样本,共进行k轮抽取,得到k个训练集。(
阅读全文
摘要:from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler from sklearn.model_se
阅读全文
摘要:1、简介 孤立森林(Isolation Forest)是另外一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。 在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点。 因为那
阅读全文
摘要:x = np.arange(1, 17, 1)y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42, 10.50, 10.55, 10.58, 10.60])df=pd.Dat
阅读全文
摘要:x=[1 ,1 ,4, 4, 5 ,7, 7, 7, 9] res=pd.cut(x,bins=4,include_lowest=True)#[(0.991, 3.0], (0.991, 3.0], (3.0, 5.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (5
阅读全文
摘要:import numpy as npimport pandas as pdimport math #将二进制转化为十进制 x∈[0,10]def b2d(b): t = 0 for j in range(len(b)): t += b[j] * (math.pow(2, j)) t = t * 10
阅读全文
摘要:https://blog.csdn.net/weishiym/article/details/79629329 (1)数据清洗 1. 清洗异常数据 2. 采样 数据不均匀 样本权重 (2)预处理 1. 单个特征 : 归一化 离散化 Dummy Coding 缺失值 数据变换 :log,指数,Box-
阅读全文
摘要:空值填充算法 编写人员:夏思彬,刘泽宁 简介 造成数据缺失的原因 现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的: 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。 信息被遗漏。
阅读全文
摘要:https://www.cnblogs.com/gatherstars/p/6084696.html
阅读全文
摘要:空值填充算法 简介 造成数据缺失的原因 现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的: 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。 信息被遗漏。可能是因为输入时认为不重要
阅读全文
摘要:https://blog.csdn.net/u010657489/article/details/51952785 https://zhuanlan.zhihu.com/p/28672955 https://www.analyticsvidhya.com/blog/2016/03/complete-
阅读全文
摘要:安装连接:https://www.zhihu.com/question/46377605 软件连接:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 选择与python匹配的版本:xgboost-0.72-cp36-cp36m-win_amd64
阅读全文