2018年11月15日

摘要: #CPA 无监督,不利用类别标签from sklearn.decomposition import PCAdata_CPA=PCA(n_components=2).fit_transform(iris.data)# print('data_CPA',data_CPA)#线性判别法 有监督,利用数据的 阅读全文
posted @ 2018-11-15 18:37 happygril3 阅读(132) 评论(0) 推荐(0)
摘要: #特征选择# (1)filter#1.1 方差:先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征from sklearn.feature_selection import VarianceThresholddata_var=VarianceThreshold(threshold=3).f 阅读全文
posted @ 2018-11-15 18:37 happygril3 阅读(256) 评论(0) 推荐(0)
摘要: from sklearn.datasets import load_irisiris=load_iris()#Z-score 数据标准化from sklearn.preprocessing import StandardScalerdata_standard=StandardScaler().fit 阅读全文
posted @ 2018-11-15 18:14 happygril3 阅读(145) 评论(0) 推荐(0)
摘要: 误差(泛化误差)=偏差(bias),+方差(variance) +噪声(noise) 偏差:【预测值-真实值的偏离程度】--【算法的拟合能力】--boosting Boosting使loss减少,可以降低bias。这里的模型之间并不独立,所以不能显著减少variance 方差:【结果的波动程度】-- 阅读全文
posted @ 2018-11-15 15:44 happygril3 阅读(428) 评论(0) 推荐(0)
摘要: 意义: 1. 数据的量纲不同,数量级别差别很大 2. 平衡各特征的贡献:距离、协方差,是因为要使各特征贡献一致所以使用标准化 3. 加快梯度下降求最优解的速度 方法: 1.min-max标准化: 比较适用在数值比较集中的情况 不涉及距离度量、协方差计算、数据不符合正太分布的时候 2. z-score 阅读全文
posted @ 2018-11-15 15:08 happygril3 阅读(191) 评论(0) 推荐(0)

导航