完整教程:7天速成R语言:零基础到数据分析实战

第1天:认识R与基本操作

目标:会写代码、理解变量和数据类型
任务

  • 打开 RStudio,认识四个窗口(控制台、脚本、环境、文件)
  • 学习赋值:x <- 10
  • 创建向量:c(1,2,3);字符向量:c("A","B")
  • 查看数据类型:class(x)
  • 简单运算:mean(c(1,2,3,4))

小练习
创建一个包含5门课程成绩的向量,计算平均分和最高分。

scores <- c(85, 92, 78, 88, 90)
mean(scores)
max(scores)

提示:把代码写在 .R 脚本文件中,而不是直接在控制台输入!


第2天:数据结构与内置数据集

目标:掌握数据框(data.frame)——最常用结构
任务

  • 学习 data.frame() 创建表格
  • 使用内置数据集:iris(鸢尾花)、mtcars(汽车数据)
  • 查看数据:head(iris)str(iris)summary(iris)

小练习
查看 mtcars 数据,找出马力(hp)最高的车型。

# 查看前几行
head(mtcars)
# 找出 hp 最大的那一行
mtcars[which.max(mtcars$hp), ]


第3天:数据读取与简单筛选

目标:能导入自己的数据(如Excel/CSV),并提取所需信息
任务

  • 安装并加载 readr 包:install.packages("readr")
  • 读取CSV:read_csv("your_file.csv")(可先用示例数据)
  • 条件筛选:subset(df, age > 20) 或 df[df$age > 20, ]

模拟练习(无需真实文件):

# 创建一个学生成绩表
students <- data.frame(
  name = c("张三", "李四", "王五", "赵六"),
  math = c(88, 95, 76, 82),
  english = c(80, 89, 92, 78)
)
# 筛选数学成绩 > 85 的学生
students[students$math > 85, ]


第4天:数据操作(dplyr 入门)

目标:用现代R方式高效处理数据
任务

  • 安装 dplyrinstall.packages("dplyr")
  • 学习核心函数:
    • filter():筛选行
    • select():选择列
    • mutate():新增列
    • arrange():排序

练习:在 iris 中筛选“花瓣长度 > 5”的样本,并只保留“Species”和“Petal.Length”两列。

library(dplyr)
iris %>%
  filter(Petal.Length > 5) %>%
  select(Species, Petal.Length)

%>% 是“管道符”,让代码更清晰(读作“然后”)


第5天:基础可视化

目标:能画出专业图表
任务

  • 安装 ggplot2
  • 学习 ggplot(data, aes(x, y)) + geom_...()
  • 尝试:散点图、柱状图、箱线图

练习:用 mtcars 画“重量(wt)vs 油耗(mpg)”的散点图

library(ggplot2)
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point() +
  labs(title = "汽车重量与油耗关系", x = "重量", y = "每加仑英里数")

第6天:统计分析初探

目标:做一点真正“统计”的事
任务

  • 计算相关系数:cor(mtcars$wt, mtcars$mpg)
  • 简单线性回归:lm(mpg ~ wt, data = mtcars)
  • 查看结果:summary(model)

练习:拟合一个模型,预测油耗(mpg)基于车重(wt)

model <- lm(mpg ~ wt, data = mtcars)
summary(model)

第7天:整合输出 —— 用 R Markdown 写报告

目标:把分析过程和结果整理成文档(适合课程作业!)
任务

  • 在 RStudio 中:File → New File → R Markdown
  • 选择 HTML 输出
  • 在代码块中插入前面的分析代码
  • 点击 “Knit” 生成漂亮报告

成果:你将拥有一个包含代码、图表、文字说明的完整分析报告!


额外建议(学生特别版)

  1. 课程作业利器:用 R 做统计课、计量经济学、心理学实验数据分析。
  2. 毕业论文加分项:附上 R 代码和可视化图表,体现科研能力。
  3. 免费数据源
    • 国家统计局:http://www.stats.gov.cn/
    • Kaggle(搜“student performance”等关键词)
  4. 保存代码习惯:所有练习都存为 .R 或 .Rmd 文件,方便复习和复用。

posted @ 2025-12-20 08:53  gccbuaa  阅读(1)  评论(0)    收藏  举报