zhang-X - 博客园

2021年9月8日

摘要： 1 数据变换在数据变换中，数据被变换成适应于数据挖掘需求的形式，数据变换策略主要包括以下几种。 1．光滑:去掉数据中的噪声，可以通过分箱、回归和聚类等技术实现。 2．属性构造:由给定的属性构造出新属性并添加到数据集中。例如，通过“销售额”和“成本”构造出“利润”，只需要对相应属性数据进行简单变换即阅读全文

posted @ 2021-09-08 17:01 zhang-X 阅读(3652) 评论(0) 推荐(0)

数据预处理--数据集成

摘要：数据集成数据集成是指将多个数据源中的数据合并，并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。冗余是数据集成的另一个重要问题。两个数据集有两个命名不同但实际数据相同的属性，那么其中一个属性就是冗余的。另外，一个属性若可以通过另一个属性的一定变换得出阅读全文

posted @ 2021-09-08 16:57 zhang-X 阅读(683) 评论(0) 推荐(0)

数据预处理--噪声数据处理、数据不一致处理、数据合并

摘要： 1 噪声数据处理噪声时一个测量变量中的随机错误或偏差，包括错误值或偏离期望的孤立点值，在R中可以调用outliers软件包中的outlier（）函数寻找噪声点，该函数通过寻找数据集中于其他观测值及均值擦话剧很大的点作为异常值，函数的格式为：其中x表示一个数据，通常是一个向量，如果x是一个数据框或阅读全文

posted @ 2021-09-08 16:54 zhang-X 阅读(1924) 评论(0) 推荐(0)

数据预处理--缺失值判断和处理（删除法、插补法（均值插补、热平台插补））

摘要：数据预处理 1 数据集加载这里使用mice软件包下的nhanes2数据集进行演示，这是一个含有缺失值的小规模数据集。 library(lattice) library(MASS) library(nnet) library(mice) data("nhanes2") dim(nhanes2) #获阅读全文

posted @ 2021-09-08 16:48 zhang-X 阅读(7780) 评论(0) 推荐(0)

数据可视化（直方图、累积分布图、箱线图、点阵图）

摘要： 1 可视化探索 1.1 直方图这是一种简单快速探索数据分布的方式。以Insurance数据集中过的“索赔量”变量Claims为例，观察该变量的分布情况。 hist(Insurance$Claims,main="Histogram of Freq of Insurance$Claims") 结果分析阅读全文

posted @ 2021-09-08 16:43 zhang-X 阅读(3623) 评论(0) 推荐(0)

查看变量详情（分布指标（偏度和峰度）、稀疏性、缺失形、相关性）

摘要： 1.1 变量概况 (1)可以通过attributes()函数给出数据集的属性列表，其中包括变量名称（$names），数据集格式（$class）一级列名（$row.names）三个部分，由此可以对数据集结构有一个整体的把握。 library("MASS") attributes(Insurance) 阅读全文

posted @ 2021-09-08 16:39 zhang-X 阅读(1422) 评论(0) 推荐(0)

数据抽样与R实现、获取网页数据

摘要： 1 简单处理数据 dim(Insurance) #获得数据集维度 dim(Insurance)[1] #获得数据集维度的第一个向量 2 变量类型通过levels()可以看到因子型数据的各水平值 levels(Insurance$Age) #显示出年龄有四个等级 levels(Insurance$A 阅读全文

posted @ 2021-09-08 16:30 zhang-X 阅读(373) 评论(0) 推荐(0)

2021年8月17日

使用lattice进行数据可视化-- 自定义图形条带

摘要：使用lattice进行高级绘图-- 自定义图形条带面板条带默认的背景是：第一个调节变量是桃红色，第二个调节变量是浅绿色，第三个调节变量是浅蓝色。令人高兴地是，我们可以自定义颜色、字体和这些条带的其他方面。让我们先从条带函数开始。正如lattice中的高水平图形函数允许我们通过控制每个面板的内容指阅读全文

posted @ 2021-08-17 21:44 zhang-X 阅读(237) 评论(0) 推荐(0)

使用lattice进行数据可视化-- 图形参数

摘要：使用lattice进行高级绘图-- 图形参数查看默认的设置： show.settings() 把它们保存到名为mysettings的列表中： mysettings <- trellis.par.get() 以使用names()函数来查看列表的成分： names(mysettings) 体到叠加符号阅读全文

posted @ 2021-08-17 21:43 zhang-X 阅读(166) 评论(0) 推荐(0)

使用lattice进行数据可视化-- 分组变量？

摘要：使用lattice进行高级绘图-- 分组变量当你在lattice绘图公式中增加调节变量时，该变量每个水平的独立面板就会产生。如果想添加的结果和每个水平正好相反，可以指定该变量为分组变量。比方说，我们想利用核密度图展示使用手动和自动变速器时汽车油耗的分布。我们可以使用下面的代码来添加相应的图形：（阅读全文

posted @ 2021-08-17 21:41 zhang-X 阅读(144) 评论(0) 推荐(0)

R语言

公告