加载内置数据集
R 中有大量的内置数据集。它们可以很容易地被加载并投入使用,主要用于演示和测
试。内置数据集主要是以数据框的形式进行存储,它们都附有详细的介绍。
例如,iris 和 mtcars 是 R 中最有名的数据集。可以用?iris 和?mtcars 分别查看
这两个数据集的描述。通常,这些描述是很具体的——它不仅告诉你数据中包含什么,是
如何被收集和格式化的,以及每一列的含义,同时也提供数据相关的来源和参考。通过阅
读这些描述,你可以了解到有关数据集的更多信息。
使用内置数据集对数据分析工具进行试验是非常方便的,因为一旦 R 准备就绪,这
些数据集便立即可用。例如,可以直接使用 iris 和 mtcars,而不需要从其他地方加载
它们。
下面就是 iris 数据集的前 6 行:
head(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
下面的代码显示了它的结构:
str(iris)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1
1 1 1 ...
iris 数据集的结构是很简单的。可以打印 iris 数据集从而在控制台中查看整个数据
框,也可以用 View(iris)在网格窗格或窗口中查看。
查看 mtcars 数据集的前 6 行及其结构:
head(mtcars)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
str(mtcars)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
正如看到的那样,iris 和 mtcars 是小巧且简单的数据集。事实上,大多数内置数
据集只有几列,几十行或几百行数据。它们通常用于演示一些特定的数据分析工具。
如果想尝试更大的数据,可以试一些带有数据集的 R 包。例如,最有名的数据可视化
包 ggplot2 提供了一个名为 diamonds 的数据集,其中包含大量钻石的价格和一些其他
属性信息。可以使用?ggplot2::diamonds 来了解这个数据集的相关信息。如果还没有
安装这个包,请运行 install.packages("ggplot2")。
我们用 data( )导入包中的数据:
data("diamonds", package = "ggplot2")
dim(diamonds)
## [1] 53940 10
输出显示 diamonds 有 10 列 53940 行。预览如下:
head(diamonds)
## carat cut color clarity depth table price x y z
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.20 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
有的包提供了许多有用的函数,还有一些包只提供数据集。例如,nycflights13 和
babynames 只包含一些数据集。这里加载数据的方法与前面的方法完全相同。运行
install.packages(c("nycflights13", "babynames"))来安装这两个包。
在接下来的几节中,我们将使用这些数据集来演示基本的图形工具和数据分析工具。