摘要: 1、为什么要用这个编码? 将离散型特征使用one-hot编码,确实会让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, 阅读全文
posted @ 2020-07-30 18:24 Tomorrow1126 阅读(296) 评论(0) 推荐(0)
摘要: 1、聚类(Clustering)就是一种寻找数据之间内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作簇。处于相同簇中的数据实例彼此相同,处于不同簇中的实例彼此不同。 聚类技术通常又被称为无监督学习,与监督学习不同的是,在簇中那些表示数据类别的分类或者分组信息是没有的。 数据之间 阅读全文
posted @ 2020-07-30 18:03 Tomorrow1126 阅读(459) 评论(0) 推荐(0)