machine learning - 随笔分类(第2页) - happygril3

特征工程

摘要：sklearn.preprocessing 1. 数据预处理无量纲化将特征值转化至标准正态分布 from sklearn.preprocessing import StandardScaler 无量纲化将特征值转化为【0,1】 from sklearn.preprocessing import 阅读全文

posted @ 2018-10-25 17:36 happygril3 阅读(153) 评论(0) 推荐(0)

K-means

摘要：一、K-means聚类步骤：（1）选择k个初始聚类中心（2）计算每个对象与这k个中心各自的距离，按照最小距离原则分配到最邻近聚类（3）使用每个聚类中的样本均值作为新的聚类中心（4）重复步骤（2）和（3）直到聚类中心不再变化（5）结束，得到k个聚类二、评价聚类的指标：（1）inertia 阅读全文

posted @ 2018-10-25 15:59 happygril3 阅读(159) 评论(0) 推荐(0)

主成分_CPA

摘要：基本原理：方差最大原理通过正交变换将原相关性变量转化为不相关的变量第一主成分：线性组合方差最大第二主成分：线性组合，COV（F1,F2）=0 步骤：原始数据标准化:DataAdjust(m*n)【m个样本，n个变量】计算样本的协方差矩阵【cov=（n*n）】计算协方差矩阵的特征值和特征阅读全文

posted @ 2018-10-25 14:59 happygril3 阅读(415) 评论(0) 推荐(0)

信息增益-基尼系数

摘要：名称是否良好是否男 A 1 1 B 1 1 C 1 0 D 0 1 E 0 1 熵：H（D）= -[2/5log(2/5)+3/5log(3/5)]=0.971 H(D)=3/5H(D1)+2/5H(D2)=-{3/5(2/3log1/3+1/3log1/3)+2/5(1log(1)}=0.55 阅读全文

posted @ 2018-10-25 13:50 happygril3 阅读(1075) 评论(0) 推荐(0)

boosting_bagging

摘要：boosting(提升法）对于训练集中的每个样本建立全职W（i），当某个样本被错误分类概率很高时，样本的权重加大；在迭代过程中，每一个迭代器都是一个弱分类器，我们需要用某种策略将其组合，作为最终模型。 bagging（套袋法）从原始样本集随机抽取n个训练样本，共进行k轮抽取，得到k个训练集。（阅读全文

posted @ 2018-10-25 11:38 happygril3 阅读(164) 评论(0) 推荐(0)

模型参数_grid

摘要：from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler from sklearn.model_se 阅读全文

posted @ 2018-10-24 18:35 happygril3 阅读(234) 评论(0) 推荐(0)

孤立森林（isolation forest）

摘要：1、简介孤立森林（Isolation Forest）是另外一种高效的异常检测算法，它和随机森林类似，但每次选择划分属性和划分点（值）时都是随机的，而不是根据信息增益或者基尼指数来选择。在建树过程中，如果一些样本很快就到达了叶子节点（即叶子到根的距离d很短），那么就被认为很有可能是异常点。因为那阅读全文

posted @ 2018-10-17 10:35 happygril3 阅读(1774) 评论(0) 推荐(0)

拟合

摘要：x = np.arange(1, 17, 1)y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42, 10.50, 10.55, 10.58, 10.60])df=pd.Dat 阅读全文

posted @ 2018-09-28 10:50 happygril3 阅读(124) 评论(0) 推荐(0)

众数

摘要：x=[1 ,1 ,4, 4, 5 ,7, 7, 7, 9] res=pd.cut(x,bins=4,include_lowest=True)#[(0.991, 3.0], (0.991, 3.0], (3.0, 5.0], (3.0, 5.0], (3.0, 5.0], (5.0, 7.0], (5 阅读全文

posted @ 2018-09-17 10:55 happygril3 阅读(89) 评论(0) 推荐(0)

遗传算法

摘要：import numpy as npimport pandas as pdimport math #将二进制转化为十进制 x∈[0,10]def b2d(b): t = 0 for j in range(len(b)): t += b[j] * (math.pow(2, j)) t = t * 10 阅读全文

posted @ 2018-09-15 20:36 happygril3 阅读(324) 评论(0) 推荐(0)

特征工程

摘要：https://blog.csdn.net/weishiym/article/details/79629329 （1）数据清洗 1. 清洗异常数据 2. 采样数据不均匀样本权重（2）预处理 1. 单个特征：归一化离散化 Dummy Coding 缺失值数据变换：log,指数，Box- 阅读全文

posted @ 2018-07-31 10:18 happygril3 阅读(112) 评论(0) 推荐(0)

空值法填充

摘要：空值填充算法编写人员：夏思彬，刘泽宁简介造成数据缺失的原因现实世界中的数据异常杂乱，属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的：信息暂时无法获取。例如在医疗数据库中，并非所有病人的所有临床检验结果都能在给定的时间内得到，就致使一部分属性值空缺出来。信息被遗漏。阅读全文

posted @ 2018-07-18 11:39 happygril3 阅读(1063) 评论(0) 推荐(0)

AUC和ROC

摘要：https://www.cnblogs.com/gatherstars/p/6084696.html 阅读全文

posted @ 2018-07-13 15:53 happygril3 阅读(96) 评论(0) 推荐(0)

缺失值填写

摘要：空值填充算法简介造成数据缺失的原因现实世界中的数据异常杂乱，属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的：信息暂时无法获取。例如在医疗数据库中，并非所有病人的所有临床检验结果都能在给定的时间内得到，就致使一部分属性值空缺出来。信息被遗漏。可能是因为输入时认为不重要阅读全文

posted @ 2018-07-11 13:25 happygril3 阅读(602) 评论(0) 推荐(0)

xgboost参数

摘要：https://blog.csdn.net/u010657489/article/details/51952785 https://zhuanlan.zhihu.com/p/28672955 https://www.analyticsvidhya.com/blog/2016/03/complete- 阅读全文

posted @ 2018-07-11 13:19 happygril3 阅读(289) 评论(0) 推荐(0)

xgboost安装

摘要：安装连接：https://www.zhihu.com/question/46377605 软件连接：https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 选择与python匹配的版本：xgboost-0.72-cp36-cp36m-win_amd64 阅读全文

posted @ 2018-07-11 11:43 happygril3 阅读(175) 评论(0) 推荐(0)

happygril3

随笔分类 - machine learning

导航

公告