随笔分类 - 数据挖掘
摘要:数据可视化:将数据表示成各种图,方便分析数据 盒状图(箱线图):能分析多个属性数据的离散度差异性 直方图:用来分析单个属性在各个区间的变化分布 散点图:用来显示两组数据的相关性分布
阅读全文
摘要:在认识了数据之后,我们要知道基本的数据统计方法为数据处理做准备 数据统计动机: 为了更好地理解数据:集中趋势、分布 数据统计的常用统计特性: 最大值,最小值,中位数,位数,离群值,方差等 中性化趋势度量:均值、中位数、众数 平均值:一组数据的均衡点(均值对离群值很敏感,因此,中位数和截断均值也很常用
阅读全文
摘要:要进行数据挖掘,首先我们要知道什么是数据、数据集,有哪些数据类型 数据集: 在数据库中,我们存储的一个数据库表(table)就是一个数据集,数据表的每一行就是一个数据对象(就是一条信息),数据表的列就是数据的属性(用来解释每一个数据代表什么含义) 数据(属性)类型: 标称: 标称类型的数据与该数据的
阅读全文
摘要:数据挖掘定义: 数据挖掘是从大量的,不完全的,有噪声的,模糊的,随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。 数据挖掘涉及到的知识: 数据库技术、统计学、可视化、高性能计算、人工智能、机器学习 关于数据、信息、知识的理解: 也就是说 : 对于一个客户:它的年龄2
阅读全文