摘要: 前几篇我们较为详细地介绍了K-means聚类法的实现方法和具体实战,这种方法虽然快速高效,是大规模数据聚类分析中首选的方法,但是它也有一些短板,比如在数据集中有脏数据时,由于其对每一个类的准则函数为平方误差,当样本数据中出现了不合理的极端值,会导致最终聚类结果产生一定的误差,而本篇将要介绍的K-me 阅读全文
posted @ 2018-03-18 15:17 费弗里 阅读(23441) 评论(14) 推荐(6) 编辑
摘要: 上一篇我们详细介绍了普通的K-means聚类法在Python和R中各自的实现方法,本篇便以实际工作中遇到的数据集为例进行实战说明。 数据说明: 本次实战样本数据集来自浪潮集团提供的美团的商家信息,因涉及知识产权问题恕难以提供数据地址; 我选择的三个维度的数值型数据分别为“商家评分”,“商家评论数”, 阅读全文
posted @ 2018-03-17 22:45 费弗里 阅读(1389) 评论(0) 推荐(0) 编辑
摘要: kmeans法(K均值法)是麦奎因提出的,这种算法的基本思想是将每一个样本分配给最靠近中心(均值)的类中,具体的算法至少包括以下三个步骤: 1.将所有的样品分成k个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类重新计算中心坐标; 3.重复步骤2,直到所有的样品都 阅读全文
posted @ 2018-03-17 20:09 费弗里 阅读(2108) 评论(0) 推荐(1) 编辑
摘要: 上一篇我们较为系统地介绍了Python与R在系统聚类上的方法和不同,明白人都能看出来用R进行系统聚类比Python要方便不少,但是光介绍方法是没用的,要经过实战来强化学习的过程,本文就基于R对2016年我国各主要城市第一、二、三产业GDP的量为三个不同特征,对这些城市进行系统聚类+分析; 数据来源: 阅读全文
posted @ 2018-03-16 20:39 费弗里 阅读(587) 评论(0) 推荐(1) 编辑
摘要: 上一篇笔者以自己编写代码的方式实现了重心法下的系统聚类(又称层次聚类)算法,通过与Scipy和R中各自自带的系统聚类方法进行比较,显然这些权威的快捷方法更为高效,那么本篇就系统地介绍一下Python与R各自的系统聚类算法; Python cluster是Scipy中专门用来做聚类的包,其中包括clu 阅读全文
posted @ 2018-03-16 20:08 费弗里 阅读(1397) 评论(0) 推荐(2) 编辑
摘要: 聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接用来聚类分析的函数,但是要想掌握一种方法就得深刻地理解它的思想,因此自己从最底层开始编写代码来实现这 阅读全文
posted @ 2018-03-15 23:24 费弗里 阅读(3719) 评论(0) 推荐(1) 编辑
摘要: Python作为一种解释型的高级语言,脚本语言,又被称作“胶水语言”,就是因为其灵活的语法和其依靠浩如烟海的第三方包实现的丰富多彩的功能,而os和shutil就是这样一种功能强大的模块,可以非常快捷地帮助使用者解决日常计算机文件相关操作的一些问题,下面就对os和shutil包中一些常见的命令进行说明 阅读全文
posted @ 2018-03-14 23:02 费弗里 阅读(545) 评论(0) 推荐(1) 编辑
摘要: 上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 利用data.frame()函数来创建数据框,其常用参数如下: ...:数据框的构成向量的变量名,顺 阅读全文
posted @ 2018-03-14 21:43 费弗里 阅读(1031) 评论(0) 推荐(0) 编辑
摘要: 数据框(Dataframe)作为一种十分标准的数据结构,是数据分析中最常用的数据结构,在Python和R中各有对数据框的不同定义和操作。 Python 本文涉及Python数据框,为了更好的视觉效果,使用jupyter notebook作为演示的编辑器;Python中的数据框相关功能集成在数据分析相 阅读全文
posted @ 2018-03-13 23:03 费弗里 阅读(1611) 评论(0) 推荐(1) 编辑
摘要: 在数据分析的过程中,外部数据的导入和数据的导出是非常关键的部分,而Python和R在这方面大同小异,且针对不同的包或模块,对应着不同的函数来完成这部分功能: Python 1.TXT文件 导入: 以某证券软件导出的txt格式股票数据为例: 方式1: 可以看到,通过readlines(),目标文件中的 阅读全文
posted @ 2018-03-11 21:05 费弗里 阅读(803) 评论(0) 推荐(1) 编辑