摘要: DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) 参数 #用来指定特定的列,默认所有列 subset : column label or sequence of labels, optional # keep='f 阅读全文
posted @ 2018-05-12 22:29 广目天王 阅读(655) 评论(0) 推荐(0)
摘要: concat ignore_index=False 保持原有索引 ,True 顺序添加新的索引 append ignore_index=False 保持原有索引 ,True 顺序添加新的索引 阅读全文
posted @ 2018-05-12 17:39 广目天王 阅读(503) 评论(0) 推荐(0)
摘要: 针对不同情况,有些问题你需要的聚类数目可能是已知的。但是在聚类数目不作为一个先验知道的情况下,我们并不能够保证某个聚类的数目对这个数据是最优的,因为我们对于数据的结构(如果存在的话)是不清楚的。但是,我们可以通过计算每一个簇中点的轮廓系数来衡量聚类的质量。数据点的轮廓系数衡量了它与分配给他的簇的相似 阅读全文
posted @ 2018-05-07 19:02 广目天王 阅读(407) 评论(0) 推荐(0)
摘要: python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1)查看DataFrame数据及属性 2)使用DataFrame选择数据: 3)使用DataFrame重置数据: 4)使用Dat 阅读全文
posted @ 2018-05-07 14:03 广目天王 阅读(197) 评论(0) 推荐(0)
摘要: 聚类的方法有很多种,k-means要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这k个聚类中心),这个中心就是这个类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就是将未知数据对这k个聚 阅读全文
posted @ 2018-05-03 19:02 广目天王 阅读(378) 评论(0) 推荐(0)
摘要: 用于回归问题 决定系数R2 ,衡量模型预测能力好坏(真实和预测的 相关程度百分比) Y_true是真实的数据,y_pred是预测的数据。 使用r2_score()方法可以看到,预测数据和真实数据越接近,R2越大。当然最大值是 1 一个模型的R2 值为0还不如直接用平均值来预测效果好;而一个R2值为1 阅读全文
posted @ 2018-05-02 20:21 广目天王 阅读(5240) 评论(0) 推荐(1)
摘要: pca主成分分析: 可以把高纬度数据在损失最小的情况下转化为低维度数据。显然,PCA可以对数据进行压缩,可以在可控的失真范围内提高运算速度。 PCA主要参数: n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目whiten :判断是否进行白化,就是对降维后的数据的每个特征 阅读全文
posted @ 2018-04-27 11:39 广目天王 阅读(676) 评论(0) 推荐(0)
摘要: 本文转载自:https://blog.csdn.net/zbc1090549839/article/details/38929215 一.引言 这里我们将要讨论所谓的“维数灾难”,同时结合过拟合现象来解释它在分类器学习中的重要性。 举一个分类应用的简单例子,假设我们有一系列的图片,每张图片的内容可能 阅读全文
posted @ 2018-04-25 09:23 广目天王 阅读(326) 评论(0) 推荐(0)
摘要: 给出这三个人的身高和体重: 按照我们的理解,明显Chris应该穿L码,但是根据身高+体重的结果,Chris却应该穿S。这是为什么呢? 因为在这里,体重完全主导了结果,身高的影响微乎其微。 而我们应该尽量让两者对结果有同等重要的影响。 这就引来了特征缩放——把特征都限制在[0,1]之间。 解释: X’ 阅读全文
posted @ 2018-04-24 01:15 广目天王 阅读(356) 评论(0) 推荐(0)
摘要: K-mean执行步骤 1,根据参数选择聚心的数量 如果分成两类,那么会随机分配两个聚心的位置,并根据聚心的位置给它分配一些点 下图 红蓝X就是两个聚心 2.计算分配的这些点,距离自己聚心的距离,算出平均值。聚心会根据算出的平均值,移动自己到平均值的位置,再次进行分配点 3,继续上一步的操作,迭代多次 阅读全文
posted @ 2018-04-22 23:41 广目天王 阅读(165) 评论(0) 推荐(0)