摘要:
1 数据变换 在数据变换中,数据被变换成适应于数据挖掘需求的形式,数据变换策略主要包括以下几种。 1.光滑:去掉数据中的噪声,可以通过分箱、回归和聚类等技术实现。 2.属性构造:由给定的属性构造出新属性并添加到数据集中。例如,通过“销售额”和“成本”构造出“利润”,只需要对相应属性数据进行简单变换即 阅读全文
posted @ 2021-09-08 17:01
zhang-X
阅读(3503)
评论(0)
推荐(0)
摘要:
数据集成 数据集成是指将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。 冗余是数据集成的另一个重要问题。两个数据集有两个命名不同但实际数据相同的属性,那么其中一个属性就是冗余的。另外,一个属性若可以通过另一个属性的一定变换得出 阅读全文
posted @ 2021-09-08 16:57
zhang-X
阅读(653)
评论(0)
推荐(0)
摘要:
1 噪声数据处理 噪声时一个测量变量中的随机错误或偏差,包括错误值或偏离期望的孤立点值,在R中可以调用outliers软件包中的outlier()函数寻找噪声点,该函数通过寻找数据集中于其他观测值及均值擦话剧很大的点作为异常值,函数的格式为: 其中x表示一个数据,通常是一个向量,如果x是一个数据框或 阅读全文
posted @ 2021-09-08 16:54
zhang-X
阅读(1824)
评论(0)
推荐(0)
摘要:
数据预处理 1 数据集加载 这里使用mice软件包下的nhanes2数据集进行演示,这是一个含有缺失值的小规模数据集。 library(lattice) library(MASS) library(nnet) library(mice) data("nhanes2") dim(nhanes2) #获 阅读全文
posted @ 2021-09-08 16:48
zhang-X
阅读(7450)
评论(0)
推荐(0)
摘要:
1 可视化探索 1.1 直方图 这是一种简单快速探索数据分布的方式。以Insurance数据集中过的“索赔量”变量Claims为例,观察该变量的分布情况。 hist(Insurance$Claims,main="Histogram of Freq of Insurance$Claims") 结果分析 阅读全文
posted @ 2021-09-08 16:43
zhang-X
阅读(3281)
评论(0)
推荐(0)
摘要:
1.1 变量概况 (1)可以通过attributes()函数给出数据集的属性列表,其中包括变量名称($names),数据集格式($class)一级列名($row.names)三个部分,由此可以对数据集结构有一个整体的把握。 library("MASS") attributes(Insurance) 阅读全文
posted @ 2021-09-08 16:39
zhang-X
阅读(1365)
评论(0)
推荐(0)
摘要:
1 简单处理数据 dim(Insurance) #获得数据集维度 dim(Insurance)[1] #获得数据集维度的第一个向量 2 变量类型 通过levels()可以看到因子型数据的各水平值 levels(Insurance$Age) #显示出年龄有四个等级 levels(Insurance$A 阅读全文
posted @ 2021-09-08 16:30
zhang-X
阅读(365)
评论(0)
推荐(0)