2020年10月17日

摘要: 1. 原理 1. 首先输入k的值,即我们希望将数据集经过聚类得到k个分组。 2. 从数据集中随机选择k个数据点作为初始大哥(质心,Centroid) 3. 对集合中每一个小弟,计算与每一个大哥的距离(距离的含义后面会讲),离哪个大哥距离近,就跟定哪个大哥。 4. 这时每一个大哥手下都聚集了一票小弟, 阅读全文
posted @ 2020-10-17 16:49 happygril3 阅读(161) 评论(0) 推荐(1)
摘要: 1. Label encoding Label encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 缺点:所有的标签都变成了数字,然后算法模型直接将根据其距离来考虑相似的数字,而不考虑标签的具体含义。 方案一:单列数据 from sk 阅读全文
posted @ 2020-10-17 15:42 happygril3 阅读(547) 评论(0) 推荐(0)

导航