统计学——描述性统计习题精解
描述性统计是数据分析的基础,旨在通过一系列统计量来总结和展示数据的主要特征。描述性统计常用于数据预处理、探索性分析和结果总结,为后续更复杂的分析提供有价值的信息。
一、描绘性统计概要
描述性统计(Descriptive Statistics)是统计学中用于总结、概括和展示数据特征的一类方法,旨在通过简明的方式揭示数据的整体状况。它通常包括三大内容:集中趋势测度、离散程度测度和数据分布形态测度。此外,图形化手段如柱状图、直方图、箱线图、散点图等也是描述性统计的重要组成部分,它们可以直观展示数据的分布、差异和关系。描述性统计不涉及推断或预测,仅限于已有数据的总结与展示,是后续统计推断和数据分析的重要基础。
| 分类 | 指标 | 含义 |
|---|---|---|
| 集中趋势测度 | 均值(Mean) | 全体数据的平均值,受极端值影响较大 |
| 中位数(Median) | 将数据从小到大排列后的中间值,适合描述偏态分布 | |
| 众数(Mode) | 出现频率最高的数据值 | |
| 离散程度测度 | 极差(Range) | 最大值与最小值的差 |
| 方差(Variance) | 数据偏离均值的平均平方距离 | |
| 标准差(Standard Deviation) | 方差的平方根,衡量数据分散程度 | |
| 四分位距(Interquartile Range, IQR) | 上四分位数与下四分位数之差 | |
| 分布形态测度 | 偏度(Skewness) | 衡量分布的偏斜方向与程度,正偏右长尾,负偏左长尾 |
| 峰度(Kurtosis) | 衡量分布曲线的陡峭程度,高峰分布集中,低峰分布平坦 | |
| 可视化展示手段 | 柱状图、直方图、箱线图、散点图 | 直观展示数据的分布形态、集中趋势和差异 |
二、习题与答案
2.1 某行业管理局所属40个企业2023年的产品销售收入数据(单位:万元)如下:
| 销售收入 | 销售收入 | 销售收入 | 销售收入 | 销售收入 |
|---|---|---|---|---|
| 152 | 124 | 129 | 116 | 100 |
| 103 | 92 | 95 | 127 | 104 |
| 105 | 119 | 114 | 115 | 87 |
| 103 | 118 | 142 | 135 | 125 |
| 117 | 108 | 105 | 110 | 107 |
| 137 | 120 | 136 | 117 | 108 |
| 97 | 88 | 123 | 115 | 119 |
| 138 | 112 | 146 | 113 | 126 |
按规定,销售收入在125万元以上为先进企业,115万元~125万元为良好企业,105万元~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。根据上面的数据进行适当分组,编制频数分布表。并做出直方图。
求解过程
根据分组标准分类
| 分组 | 销售收入范围(万元) |
|---|---|
| 先进企业 | ≥ 125 |
| 良好企业 | 115 ~ 124 |
| 一般企业 | 105 ~ 114 |
| 落后企业 | < 105 |
逐一分类:
- 先进企业(≥125):152, 129, 127, 135, 125, 137, 136, 138, 146, 126(共10个)
- 良好企业(115–124):124, 116, 119, 118, 120, 117, 117, 123, 119(共9个)
- 一般企业(105–114):105, 114, 115, 103, 108, 105, 110, 107, 108, 112, 113(共11个)
- 落后企业(<105):100, 103, 92, 95, 104, 87, 103, 97, 88(共10个)
编制频数分布表
| 分组 | 销售收入范围(万元) | 频数(个) | 相对频率(%) |
|---|---|---|---|
| 先进企业 | ≥125 | 10 | 25 |
| 良好企业 | 115~124 | 9 | 22.5 |
| 一般企业 | 105~114 | 11 | 27.5 |
| 落后企业 | <105 | 10 | 25 |
| 合计 | 40 | 100 |
直方图
# 原始数据
data <- c(152,124,129,116,100,103,92,95,127,104,
105,119,114,115,87,103,118,142,135,125,
117,108,105,110,107,137,120,136,117,108,
97,88,123,115,119,138,112,146,113,126)
# 自定义分组区间
breaks <- c(0, 104.999, 114.999, 124.999, Inf)
labels <- c("落后企业", "一般企业", "良好企业", "先进企业")
# 将数据分类
group <- cut(data, breaks=breaks, labels=labels, right=TRUE)
# 绘制直方图
library(ggplot2)
df <- data.frame(Group = group)
ggplot(df, aes(x=Group)) +
geom_bar(fill="skyblue", color="black") +
labs(title="企业销售收入分组直方图", x="企业分类", y="频数") +
theme_minimal()
2.2 某百货公司6月份各天的销售额数据如下(单位:万元):
| 销售额 | 销售额 | 销售额 | 销售额 | 销售额 |
|---|---|---|---|---|
| 257 | 276 | 297 | 252 | 238 |
| 310 | 240 | 236 | 265 | 278 |
| 271 | 292 | 261 | 281 | 301 |
| 274 | 267 | 280 | 291 | 258 |
| 272 | 284 | 268 | 303 | 273 |
| 263 | 322 | 249 | 269 | 295 |
问:(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。
求解过程
(1)计算均值、中位数和四分位数
-
均值(Mean):
-
\[\text{均值} = \frac{总和}{30} = 274.3 \ \text{万元} \]
-
-
中位数(Median):
- 排序后,第15和第16个数据为272和273。
-
\[\text{中位数} = \frac{272 + 273}{2} = 272.5 \ \text{万元} \]
-
第一四分位数Q1(25%位置):
- 第7和第8个数据为258和261。
-
\[Q1 = \frac{258 + 261}{2} = 259.5 \ \text{万元} \]
-
第三四分位数Q3(75%位置):
- 第22和第23个数据为284和291。
-
\[Q3 = \frac{284 + 291}{2} = 287.5 \ \text{万元} \]
(2)计算标准差
- 标准差(Standard Deviation):
- 样本标准差公式:\[s = \sqrt{\frac{1}{n-1} \sum (x_i - \bar{x})^2} \]
- 计算结果:
-
\[s = 22.8 \ \text{万元} \]
-
- 样本标准差公式:
2.3 一家公司在招收职员时,首先要通过两项能力测试。在A 项测试中,其平均分数是 100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理想?
求解过程
题目已知
- A项测试:
- 平均分(μₐ)= 100
- 标准差(σₐ)= 15
- 应试者得分(Xₐ)= 115
- B项测试:
- 平均分(μᵦ)= 400
- 标准差(σᵦ)= 50
- 应试者得分(Xᵦ)= 425
计算标准分(Z分数)
标准分公式:
-
A项测试的Z分数:
-
\[Z_A = \frac{115 - 100}{15} = 1 \]
-
-
B项测试的Z分数:
-
\[Z_B = \frac{425 - 400}{50} = 0.5 \]
-
结论
- A项测试 Zₐ = 1
- B项测试 Zᵦ = 0.5
由于A项测试的Z分数更高,因此:
应试者在A项测试中表现更为理想。
2.4 已知某地区农民家庭按年人均收入分组的资料如下:
| 按人均收入分组(元) | 家庭户数占总户数比重(%) |
|---|---|
| 100以下 | 2.3 |
| 100~200 | 13.7 |
| 200~300 | 19.7 |
| 300~400 | 15.2 |
| 400~500 | 15.1 |
| 500~600 | 20.0 |
| 600以上 | 14.0 |
| 合计 | 100 |
试计算该地区平均每户人均收入的均值及标准差。
求解过程
确定组中值
| 按人均收入分组(元) | 组中值(元) |
|---|---|
| 100以下 | 50 |
| 100~200 | 150 |
| 200~300 | 250 |
| 300~400 | 350 |
| 400~500 | 450 |
| 500~600 | 550 |
| 600以上 | 650 |
计算均值
| 组中值(元) | 比重(%) | 组中值 × 比重 |
|---|---|---|
| 50 | 2.3 | 115 |
| 150 | 13.7 | 2055 |
| 250 | 19.7 | 4925 |
| 350 | 15.2 | 5320 |
| 450 | 15.1 | 6795 |
| 550 | 20.0 | 11000 |
| 650 | 14.0 | 9100 |
| 合计 | 100 | 39295 |
均值公式:
计算标准差
| 组中值(元) | 比重(%) | $$(组中值 - 392.95)^2$$ | $$(组中值 - 392.95)^2 × 比重$$ |
|---|---|---|---|
| 50 | 2.3 | 117711.7 | 2707.37 |
| 150 | 13.7 | 58810.7 | 8055.87 |
| 250 | 19.7 | 20460.7 | 4020.77 |
| 350 | 15.2 | 1855.2 | 281.99 |
| 450 | 15.1 | 3240.2 | 489.26 |
| 550 | 20.0 | 24760.7 | 4952.14 |
| 650 | 14.0 | 66110.7 | 9255.50 |
| 合计 | 100 | —— | 29762.90 |
标准差公式:
最后结果
- 均值:392.95元
- 标准差:17.26元
2.5 对10名成年人和10名幼儿的身高(cm)进行抽样调查,结果如下:
| 成员编号 | 成年组身高 (cm) | 幼儿组身高 (cm) |
|---|---|---|
| 1 | 166 | 68 |
| 2 | 169 | 69 |
| 3 | 172 | 68 |
| 4 | 177 | 70 |
| 5 | 180 | 71 |
| 6 | 170 | 73 |
| 7 | 172 | 72 |
| 8 | 174 | 73 |
| 9 | 168 | 74 |
| 10 | 173 | 75 |
试求:(1)要比较成年组和幼儿组的身高差异,你会采用什么样的侧度值?为什么?(2)比较分析哪一组的身高差异大?
求解过程
(1)采用什么样的侧度值?为什么?
- 标准差用于描述组内离散程度;
- 变异系数(CV)用于跨均值量级的比较。
✅ 理由:
- 成年人与幼儿均值相差很大;
- 变异系数消除了量纲影响,能公平反映相对差异大小。
(2)具体计算
- 计算均值
成年组:
幼儿组:
- 计算标准差
成年组标准差 \(s_1\):
逐项平方和:
平方和总计为:
所以:
幼儿组标准差 \(s_2\):
平方和总计为:
所以:
- 计算变异系数(CV)
成年组变异系数:
幼儿组变异系数:
- 结论
- 成年组标准差:4.41 cm,变异系数:2.56%
- 幼儿组标准差:2.45 cm,变异系数:3.43%
✅ 比较结果:
- 虽然成年组标准差大于幼儿组;
- 但考虑到均值差异,幼儿组变异系数更大,说明幼儿组身高差异相对更大!
2.6 在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下图中的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。 (1)你认为该用什么样的统计量来反映投资的风险? (2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票? (3)如果进行股票投资,你会选择商业类股票还是高科技类股票?
求解过程
(1) 用什么统计量来反映投资的风险?
- 标准差(Standard Deviation)是最常用的风险衡量统计量。它反映了投资收益率的波动性。标准差越大,表示该投资的风险越高。
(2) 如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?
-
从直方图可以看出:
- 商业类股票的收益分布较为集中,波动较小,表示其风险较低。
- 高科技类股票的收益分布较为分散,波动较大,表示其风险较高。
-
结论:如果选择风险小的股票进行投资,应选择商业类股票。
(3) 如果进行股票投资,我会选择商业类股票还是高科技类股票?
-
这取决于你的风险偏好:
- 风险厌恶型投资者:倾向选择商业类股票,因为它们的波动较小,风险较低。
- 高风险偏好型投资者:可能选择高科技类股票,因为它们具有更大的收益波动,潜在的回报也更高,但相应的风险也较高。
-
结论:根据个人的风险承受能力来选择投资的股票类别。
2.7 某一牧场主每年饲养600头牛。现在有人向他推荐一种个头较小的改良品种牛,每头牛吃草量较少,这样在原来同样面积的牧场上可以多养150头牛。饲养原品种牛和改良品种牛的利润如下:
净利润(元/头) 原品种牛 改良品种牛
| 数值区间 | 频数 | 频率(%) | 累计频率(%) |
|---|---|---|---|
| –200 | 36 | 6 | 1 |
| 0 | 12 | 2 | 2 |
| 200 | 185 | 31 | 57 |
| 400 | 367 | 61 | 40 |
| 合计 | 600 | 100 | 100 |
问:(1)牧场主应该选择哪一种品种?为什么?(2)改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变化时,牧场主会改变他在(1)中所做的选择?
解题过程
(1) 牧场主应该选择哪一种品种?为什么?
-
原品种牛的利润分布:
净利润(元/头) 频数 频率(%) 累计频率(%) -200 36 6 1 0 12 2 2 200 185 31 57 400 367 61 40 合计 600 100 100 -
假设原品种牛的总利润可以通过以下方式计算:
- 总利润 = 600 × (每头牛的净利润平均值)
-
改良品种牛的利润分布:
- 假设改良品种牛的每头利润和频率可能发生变化。
- 计算改良品种牛的总利润。
(2) 改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变化时,牧场主会改变他在(1)中所做的选择?
-
变化情况分析:
- 若改良品种牛的净利润提高,牧场主可能会考虑选择饲养更多改良品种牛。
- 若改良品种牛的净利润降低,则可能会影响牧场主的选择,他会偏向选择原品种牛。
-
牧场主的选择将根据总利润最大化来进行决策。
最终决策过程
计算原品种牛和改良品种牛的总利润
原品种牛的总利润,通过频率分布表计算原品种牛的平均净利润。
-
假设每个净利润区间的中点代表该区间的平均利润:
- 区间 -200 元: 中点为 -200 元
- 区间 0 元: 中点为 0 元
- 区间 200 元: 中点为 200 元
- 区间 400 元: 中点为 400 元
计算每个区间对总利润的贡献:
\[\text{原品种牛的总利润} = (36 \times (-200)) + (12 \times 0) + (185 \times 200) + (367 \times 400) \]计算结果:
\[\text{原品种牛的总利润} = -7200 + 0 + 37000 + 146800 = 185600 \, \text{元} \]因此,原品种牛的总利润为 185,600 元。
改良品种牛的总利润
假设改良品种牛的每头利润和频率发生变化,计算改良品种牛的总利润。
- 如果改良品种牛的利润提升,我们可以假设它的平均净利润为 300 元,并计算总利润:
- 如果改良品种牛的利润降低,我们可以假设其平均净利润为 200 元,并计算总利润:
牧场主的选择
-
如果改良品种牛的净利润为 300 元,则总利润为 225,000 元,大于原品种牛的总利润 185,600 元。此时,牧场主应选择 改良品种牛,因为它的总利润更高。
-
如果改良品种牛的净利润为 200 元,则总利润为 150,000 元,低于原品种牛的总利润 185,600 元。此时,牧场主应选择 原品种牛,因为它的总利润更高。
-
牧场主的选择取决于改良品种牛的净利润水平。如果改良品种牛的净利润较高(例如 300 元),牧场主应该选择改良品种牛。如果改良品种牛的净利润较低(例如 200 元),牧场主应该选择原品种牛。
2.8 当今青少年视力水平的下降已引起全社会的关注,为了解某校八年级的800名学生的视力情况,从中抽取一部分学生进行统计分析。试回答:(1)补全频数分布表;(2)估算该校八年级800名学生的平均视力;(3)对该校八年级青少年视力情况作出评价。
| 组别 | 3.95~4.25 | 4.55~4.85 | 4.85~5.15 | 5.15~5.45 |
|---|---|---|---|---|
| 频数 | 2 | 6 | 10 | 1 |
| 频率 | 0.12 |
解题过程
(1)补全频数分布表
我们需要计算出每个组别的频率。已知频率是频数除以总人数。由于表格中已经给出了一个频率(0.12),我们可以用它来计算总人数。已知:
- 频数(4.55~4.85组)= 6
- 频率(4.55~4.85组)= 0.12
计算总人数:
现在我们可以计算其他组别的频率:
- 频率(3.95~4.25组)= \(\frac{2}{50} = 0.04\)
- 频率(4.85~5.15组)= \(\frac{10}{50} = 0.2\)
- 频率(5.15~5.45组)= \(\frac{1}{50} = 0.02\)
补全后的频数分布表如下:
| 组别 | 3.95~4.25 | 4.55~4.85 | 4.85~5.15 | 5.15~5.45 |
|---|---|---|---|---|
| 频数 | 2 | 6 | 10 | 1 |
| 频率 | 0.04 | 0.12 | 0.2 | 0.02 |
(2)估算该校八年级800名学生的平均视力
为了估算平均视力,我们需要计算每个组别的组中值(即组的中间值),然后乘以该组的频率,最后求和。
组中值计算:
- 3.95~4.25组的组中值 = \(\frac{3.95 + 4.25}{2} = 4.1\)
- 4.55~4.85组的组中值 = \(\frac{4.55 + 4.85}{2} = 4.7\)
- 4.85~5.15组的组中值 = \(\frac{4.85 + 5.15}{2} = 5.0\)
- 5.15~5.45组的组中值 = \(\frac{5.15 + 5.45}{2} = 5.3\)
计算加权平均:
估算800名学生的平均视力:
(3)对该校八年级青少年视力情况作出评价
根据计算出的平均视力,我们可以对该校八年级青少年的视力情况进行评价。平均视力为4.1075,这表明大部分学生的视力处于中等水平。然而,考虑到视力健康的重要性,学校和家长应关注学生的视力保护,采取有效措施预防视力下降,如定期进行视力检查,鼓励户外活动,减少电子屏幕使用时间等。
2.9 某集团所属的三家公司2005年工业产值计划和实际资料如表所示:(单位:万元)
| 公司名称 | 2013年计划产值 | 2013年计划比重(%) | 2013年实际产值 | 2013年实际比重(%) | 计划完成(%) | 2012年实际产值 | 2013年比2012年增长(%) |
|---|---|---|---|---|---|---|---|
| A | 97 | 9.3 | |||||
| B | 31 | 111 | -0.8 | ||||
| C | 370 | 402 | |||||
| 合计 | 1900 | 1500 |
试填入上表所缺的数字,要求写出计算过程。
求解过程
第一步:计算A公司计划产值和实际产值
设A公司2013年计划产值为 $ x $,实际产值为 $ y $。
因为:
- A公司计划完成率 = 实际产值 / 计划产值 × 100%
即:
又因为2013年比2012年增长率是9.3%,
第二步:计算B公司2013年计划产值和实际产值
设B公司2013年计划产值为 $ m $,实际产值为 $ n $。
已知B公司计划比重是31%,即:
计划完成率是111%,所以:
第三步:利用2013计划总产值求A公司计划产值
合计2013年计划产值为:
第四步:求A公司实际产值
根据 $ y = 0.97x $,得:
第五步:求C公司计划完成率
C公司计划完成率:
第六步:求各公司实际比重
各公司实际产值总和:
所以:
- A公司实际比重:
- B公司实际比重:
- C公司实际比重:
第七步:求各公司2012年实际产值
A公司2012年实际产值:
B公司2012年实际产值:
(注意增长率-0.8%,所以对应比例是99.2%)
C公司2012年实际产值:
| 公司名称 | 2013年计划产值 | 2013年计划比重(%) | 2013年实际产值 | 2013年实际比重(%) | 计划完成(%) | 2012年实际产值 | 2013年比2012年增长(%) |
|---|---|---|---|---|---|---|---|
| A | 941 | 49.53 | 912.77 | 46.37 | 97 | 835.11 | 9.3 |
| B | 589 | 31.00 | 653.79 | 33.21 | 111 | 659.06 | -0.8 |
| C | 370 | 19.47 | 402 | 20.42 | 108.65 | 5.83 | 6795.37 |
| 合计 | 1900 | 100.00 | 1968.56 | 100.00 | 1500 |
|
2.10 下表给出了天津、济南两座城市 2030 年各月份的平均气温。试据此对天津平均气温和济南平均气温进行探索性统计分析,研究天津平均气温和济南平均气温的基本特征。
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 天津 | -2.8 | 3.3 | 5.9 | 14.7 | 22.0 | 25.8 | 27.2 | 26.4 | 22.1 | 13.2 | 5.6 | 0.0 |
| 济南 | 0.0 | 7.0 | 8.8 | 16.0 | 23.3 | 26.2 | 26.6 | 25.4 | 21.8 | 14.7 | 8.3 | 2.3 |
解题过程
| 指标 | 天津 | 济南 |
|---|---|---|
| 均值 (Mean) | 11.25°C | 14.5°C |
| 中位数 (Median) | 13.2°C | 14.7°C |
| 方差 (Variance) | 91.24 | 68.67 |
| 标准差 (SD) | 9.55 | 8.42 |
| 最小值 (Min) | -2.8°C | 0.0°C |
| 最大值 (Max) | 27.2°C | 26.6°C |
| 第一四分位数 (Q1) | 5.9°C | 8.8°C |
| 第三四分位数 (Q3) | 22.1°C | 23.3°C |
| 四分位距 (IQR) | 17.3°C | 17.2°C |
| 偏度 (Skewness) | 0.11 | -0.21 |
| 峰度 (Kurtosis) | 3.11 | 2.89 |
三、计算程序
#2.10题
# 安装并加载必要的包
install.packages("e1071")
library(e1071)
# 数据输入
tianjin <- c(-2.8, 3.3, 5.9, 14.7, 22.0, 25.8, 27.2, 26.4, 22.1, 13.2, 5.6, 0.0)
jinan <- c(0.0, 7.0, 8.8, 16.0, 23.3, 26.2, 26.6, 25.4, 21.8, 14.7, 8.3, 2.3)
# 计算天津的描述性统计指标
tianjin_stats <- data.frame(
Mean = mean(tianjin),
Median = median(tianjin),
Variance = var(tianjin),
Standard_Deviation = sd(tianjin),
Min = min(tianjin),
Max = max(tianjin),
Q1 = quantile(tianjin, 0.25),
Q3 = quantile(tianjin, 0.75),
IQR = IQR(tianjin),
Skewness = skewness(tianjin),
Kurtosis = kurtosis(tianjin)
)
# 计算济南的描述性统计指标
jinan_stats <- data.frame(
Mean = mean(jinan),
Median = median(jinan),
Variance = var(jinan),
Standard_Deviation = sd(jinan),
Min = min(jinan),
Max = max(jinan),
Q1 = quantile(jinan, 0.25),
Q3 = quantile(jinan, 0.75),
IQR = IQR(jinan),
Skewness = skewness(jinan),
Kurtosis = kurtosis(jinan)
)
# 输出结果
tianjin_stats
jinan_stats

浙公网安备 33010602011771号