《R语言医学数据分析实战》学习记录|第二章 创建数据集
第二章 创建数据集
内容记录
- 基本数据结构
- 向量:向量下标从0开始;向量下标可取负值,表示去除指定位置上的元素;R中运算都是向量化的,类似pandas中的运算逻辑;常用的统计函数;
- 因子:名义型没有顺序关系,有序型分层级和顺序,区别靠定义时区分:定义时是否设定labels的顺序(order=TRUE)
- 矩阵
- 数组:数组多指矩阵
- 列表:可以不同类型对象混合组成,用
$(列名)访问列表中的成员 - 数据框dataframe:医学数据集最常用,大部分结构化的数据均以数据框的形式呈现;行为观测,列为变量;每列可以是不同模式的数据;与pandas中的dataframe数据结构类似;微观结构和列表类似,行列对齐的特殊列表;使用
$(列名)调用数据框的列 - 数据类型的判断和转换。
- 获取数据
- 内置数据集
- 模拟特定分布的数据,如rnorm
- 数据文件导入(
read.csv()和read.table()) - 导出数据(
write.csv())
常用函数
| 函数 | 来源包 | 功能描述 |
|---|---|---|
| var() | stats | 求方差 |
| sd() | stats | 求标准差 |
| median() | stats | 求中位数 |
| sum() | base | 求和 |
| max() | base | 求最大值 |
| min() | base | 求最小值 |
| c() | base | 创建向量 |
| colMeans() | base | 按列求均值 |
| rowSums() | base | 按行求和 |
| factor() | base | 转换为因子 |
| levels() | base | 或是因子的水平值 |
| rep() | base | 重复对象 |
| t() | base | 矩阵转置 |
| View() | base | 查看对象 |
习题
2-1 R中的数据结构:
R 语言中包括哪些数据结构?矩阵和数据框的区别是什么?
1. R中的数据结构:向量,因子,矩阵,数组,列表,数据框等;
2. 矩阵的元素都是同一类数据;但数据框和列一样,每一列可以是不同类型的数据。
2-2 创建数据框data.frame变量
请用函数 data.frame( ) 创建一个包含三个变量的数据框。其中第一个变量 x 是小写字母 a 到 j,第二个变量 y 是数字 1 到10,第三个变量 z 是10 个1。
x<-c('a','b','c','d','e','f','g','h','i','j')
y<-c(1:10)
z<-rep('1',10)
data<-data.frame(x,y,z)
print(data)
2-3 加载数据集并查看帮助
请将 survival 包里的数据集 lung 加载到工作空间中。
# install.packages("survival")
library(survival)
View(lung)
?lung
2-4 生成数据分布
请用函数 rnorm( ) 生成服从均值为 168、标准差为 10 的正态分布的 1000 个随机数,然后使用函数 hist( ) 查看该数据的分布。
r24<- rnorm(1000, mean = 168, sd = 10)
hist(r24)
2-5 文件读写
请用函数 write.csv( ) 将 datasets 包里面的数据集 iris 导出为一个 .csv 文件,然后再用函数 read.csv( ) 读入该文件。比较读入的数据集和原始数据集,查看是否存在差异。
d25<-datasets::iris
write.csv(d25,"d25-iris.csv")
d25.r<-read.csv("d25-iris.csv")
View(d25.r)

浙公网安备 33010602011771号