《R语言医学数据分析实战》学习记录｜第二章创建数据集

第二章创建数据集

基本数据结构
1. 向量：向量下标从0开始；向量下标可取负值，表示去除指定位置上的元素；R中运算都是向量化的，类似pandas中的运算逻辑；常用的统计函数；
2. 因子：名义型没有顺序关系，有序型分层级和顺序，区别靠定义时区分：定义时是否设定labels的顺序（order=TRUE）
3. 矩阵
4. 数组：数组多指矩阵
5. 列表：可以不同类型对象混合组成，用$(列名)访问列表中的成员
6. 数据框dataframe：医学数据集最常用，大部分结构化的数据均以数据框的形式呈现；行为观测，列为变量；每列可以是不同模式的数据；与pandas中的dataframe数据结构类似；微观结构和列表类似，行列对齐的特殊列表；使用$(列名)调用数据框的列
7. 数据类型的判断和转换。
获取数据
1. 内置数据集
2. 模拟特定分布的数据，如rnorm
3. 数据文件导入(read.csv()和read.table())
4. 导出数据(write.csv())

R 语言中包括哪些数据结构？矩阵和数据框的区别是什么？

1. R中的数据结构：向量，因子，矩阵，数组，列表，数据框等；
2. 矩阵的元素都是同一类数据；但数据框和列一样，每一列可以是不同类型的数据。

请用函数 data.frame( ) 创建一个包含三个变量的数据框。其中第一个变量 x 是小写字母 a 到 j，第二个变量 y 是数字 1 到10，第三个变量 z 是10 个1。

x<-c('a','b','c','d','e','f','g','h','i','j')
y<-c(1:10)
z<-rep('1',10)
data<-data.frame(x,y,z)
print(data)

请将 survival 包里的数据集 lung 加载到工作空间中。

# install.packages("survival")
library(survival)
View(lung)
?lung

请用函数 rnorm( ) 生成服从均值为 168、标准差为 10 的正态分布的 1000 个随机数，然后使用函数 hist( ) 查看该数据的分布。

r24<- rnorm(1000, mean = 168, sd = 10)
hist(r24)

请用函数 write.csv( ) 将 datasets 包里面的数据集 iris 导出为一个 .csv 文件，然后再用函数 read.csv( ) 读入该文件。比较读入的数据集和原始数据集，查看是否存在差异。

d25<-datasets::iris
write.csv(d25,"d25-iris.csv")
d25.r<-read.csv("d25-iris.csv")
View(d25.r)

posted @ 2025-11-22 15:58 四十二号观测者阅读(68) 评论(0) 收藏举报

刷新页面返回顶部