Loading

《R语言医学数据分析实战》学习记录|第二章 创建数据集

第二章 创建数据集

内容记录

  1. 基本数据结构
    1. 向量:向量下标从0开始;向量下标可取负值,表示去除指定位置上的元素;R中运算都是向量化的,类似pandas中的运算逻辑;常用的统计函数;
    2. 因子:名义型没有顺序关系,有序型分层级和顺序,区别靠定义时区分:定义时是否设定labels的顺序(order=TRUE)
    3. 矩阵
    4. 数组:数组多指矩阵
    5. 列表:可以不同类型对象混合组成,用$(列名)访问列表中的成员
    6. 数据框dataframe:医学数据集最常用,大部分结构化的数据均以数据框的形式呈现;行为观测,列为变量;每列可以是不同模式的数据;与pandas中的dataframe数据结构类似;微观结构和列表类似,行列对齐的特殊列表;使用$(列名)调用数据框的列
    7. 数据类型的判断和转换。
  2. 获取数据
    1. 内置数据集
    2. 模拟特定分布的数据,如rnorm
    3. 数据文件导入(read.csv()read.table())
    4. 导出数据(write.csv())

常用函数

函数 来源包 功能描述
var() stats 求方差
sd() stats 求标准差
median() stats 求中位数
sum() base 求和
max() base 求最大值
min() base 求最小值
c() base 创建向量
colMeans() base 按列求均值
rowSums() base 按行求和
factor() base 转换为因子
levels() base 或是因子的水平值
rep() base 重复对象
t() base 矩阵转置
View() base 查看对象

习题

2-1 R中的数据结构:

R 语言中包括哪些数据结构?矩阵和数据框的区别是什么?

1. R中的数据结构:向量,因子,矩阵,数组,列表,数据框等;
2. 矩阵的元素都是同一类数据;但数据框和列一样,每一列可以是不同类型的数据。

2-2 创建数据框data.frame变量

请用函数 data.frame( ) 创建一个包含三个变量的数据框。其中第一个变量 x 是小写字母 a 到 j,第二个变量 y 是数字 1 到10,第三个变量 z 是10 个1。

x<-c('a','b','c','d','e','f','g','h','i','j')
y<-c(1:10)
z<-rep('1',10)
data<-data.frame(x,y,z)
print(data)

2-3 加载数据集并查看帮助

请将 survival 包里的数据集 lung 加载到工作空间中。

# install.packages("survival")
library(survival)
View(lung)
?lung

2-4 生成数据分布

请用函数 rnorm( ) 生成服从均值为 168、标准差为 10 的正态分布的 1000 个随机数,然后使用函数 hist( ) 查看该数据的分布。

r24<- rnorm(1000, mean = 168, sd = 10)
hist(r24)

2-5 文件读写

请用函数 write.csv( ) 将 datasets 包里面的数据集 iris 导出为一个 .csv 文件,然后再用函数 read.csv( ) 读入该文件。比较读入的数据集和原始数据集,查看是否存在差异。

d25<-datasets::iris
write.csv(d25,"d25-iris.csv")
d25.r<-read.csv("d25-iris.csv")
View(d25.r)
posted @ 2025-11-22 15:58  四十二号观测者  阅读(3)  评论(0)    收藏  举报