统计学——描述性统计习题精解

描述性统计是数据分析的基础,旨在通过一系列统计量来总结和展示数据的主要特征。描述性统计常用于数据预处理、探索性分析和结果总结,为后续更复杂的分析提供有价值的信息。

一、描绘性统计概要

描述性统计(Descriptive Statistics)是统计学中用于总结、概括和展示数据特征的一类方法,旨在通过简明的方式揭示数据的整体状况。它通常包括三大内容:集中趋势测度、离散程度测度和数据分布形态测度。此外,图形化手段如柱状图、直方图、箱线图、散点图等也是描述性统计的重要组成部分,它们可以直观展示数据的分布、差异和关系。描述性统计不涉及推断或预测,仅限于已有数据的总结与展示,是后续统计推断和数据分析的重要基础。

分类 指标 含义
集中趋势测度 均值(Mean) 全体数据的平均值,受极端值影响较大
中位数(Median) 将数据从小到大排列后的中间值,适合描述偏态分布
众数(Mode) 出现频率最高的数据值
离散程度测度 极差(Range) 最大值与最小值的差
方差(Variance) 数据偏离均值的平均平方距离
标准差(Standard Deviation) 方差的平方根,衡量数据分散程度
四分位距(Interquartile Range, IQR) 上四分位数与下四分位数之差
分布形态测度 偏度(Skewness) 衡量分布的偏斜方向与程度,正偏右长尾,负偏左长尾
峰度(Kurtosis) 衡量分布曲线的陡峭程度,高峰分布集中,低峰分布平坦
可视化展示手段 柱状图、直方图、箱线图、散点图 直观展示数据的分布形态、集中趋势和差异

二、习题与答案

2.1 某行业管理局所属40个企业2023年的产品销售收入数据(单位:万元)如下:

销售收入 销售收入 销售收入 销售收入 销售收入
152 124 129 116 100
103 92 95 127 104
105 119 114 115 87
103 118 142 135 125
117 108 105 110 107
137 120 136 117 108
97 88 123 115 119
138 112 146 113 126

按规定,销售收入在125万元以上为先进企业,115万元~125万元为良好企业,105万元~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。根据上面的数据进行适当分组,编制频数分布表。并做出直方图。

求解过程

根据分组标准分类

分组 销售收入范围(万元)
先进企业 ≥ 125
良好企业 115 ~ 124
一般企业 105 ~ 114
落后企业 < 105

逐一分类:

  • 先进企业(≥125):152, 129, 127, 135, 125, 137, 136, 138, 146, 126(共10个)
  • 良好企业(115–124):124, 116, 119, 118, 120, 117, 117, 123, 119(共9个)
  • 一般企业(105–114):105, 114, 115, 103, 108, 105, 110, 107, 108, 112, 113(共11个)
  • 落后企业(<105):100, 103, 92, 95, 104, 87, 103, 97, 88(共10个)

编制频数分布表

分组 销售收入范围(万元) 频数(个) 相对频率(%)
先进企业 ≥125 10 25
良好企业 115~124 9 22.5
一般企业 105~114 11 27.5
落后企业 <105 10 25
合计 40 100

直方图

# 原始数据
data <- c(152,124,129,116,100,103,92,95,127,104,
          105,119,114,115,87,103,118,142,135,125,
          117,108,105,110,107,137,120,136,117,108,
          97,88,123,115,119,138,112,146,113,126)

# 自定义分组区间
breaks <- c(0, 104.999, 114.999, 124.999, Inf)
labels <- c("落后企业", "一般企业", "良好企业", "先进企业")

# 将数据分类
group <- cut(data, breaks=breaks, labels=labels, right=TRUE)

# 绘制直方图
library(ggplot2)
df <- data.frame(Group = group)

ggplot(df, aes(x=Group)) +
  geom_bar(fill="skyblue", color="black") +
  labs(title="企业销售收入分组直方图", x="企业分类", y="频数") +
  theme_minimal()

2.2 某百货公司6月份各天的销售额数据如下(单位:万元):

销售额 销售额 销售额 销售额 销售额
257 276 297 252 238
310 240 236 265 278
271 292 261 281 301
274 267 280 291 258
272 284 268 303 273
263 322 249 269 295

问:(1)计算该百货公司日销售额的均值、中位数和四分位数;(2)计算日销售额的标准差。

求解过程

(1)计算均值、中位数和四分位数

  • 均值(Mean):

    • \[\text{均值} = \frac{总和}{30} = 274.3 \ \text{万元} \]

  • 中位数(Median):

    • 排序后,第15和第16个数据为272和273。
    • \[\text{中位数} = \frac{272 + 273}{2} = 272.5 \ \text{万元} \]

  • 第一四分位数Q1(25%位置):

    • 第7和第8个数据为258和261。
    • \[Q1 = \frac{258 + 261}{2} = 259.5 \ \text{万元} \]

  • 第三四分位数Q3(75%位置):

    • 第22和第23个数据为284和291。
    • \[Q3 = \frac{284 + 291}{2} = 287.5 \ \text{万元} \]

(2)计算标准差

  • 标准差(Standard Deviation):
    • 样本标准差公式:

      \[s = \sqrt{\frac{1}{n-1} \sum (x_i - \bar{x})^2} \]

    • 计算结果:
      • \[s = 22.8 \ \text{万元} \]

2.3 一家公司在招收职员时,首先要通过两项能力测试。在A 项测试中,其平均分数是 100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理想?

求解过程

题目已知

  • A项测试:
    • 平均分(μₐ)= 100
    • 标准差(σₐ)= 15
    • 应试者得分(Xₐ)= 115
  • B项测试:
    • 平均分(μᵦ)= 400
    • 标准差(σᵦ)= 50
    • 应试者得分(Xᵦ)= 425

计算标准分(Z分数)

标准分公式:

\[Z = \frac{X - \mu}{\sigma} \]

  • A项测试的Z分数

    • \[Z_A = \frac{115 - 100}{15} = 1 \]

  • B项测试的Z分数

    • \[Z_B = \frac{425 - 400}{50} = 0.5 \]

结论

  • A项测试 Zₐ = 1
  • B项测试 Zᵦ = 0.5

由于A项测试的Z分数更高,因此:

应试者在A项测试中表现更为理想。

2.4 已知某地区农民家庭按年人均收入分组的资料如下:

按人均收入分组(元) 家庭户数占总户数比重(%)
100以下 2.3
100~200 13.7
200~300 19.7
300~400 15.2
400~500 15.1
500~600 20.0
600以上 14.0
合计 100

试计算该地区平均每户人均收入的均值及标准差。

求解过程

确定组中值

按人均收入分组(元) 组中值(元)
100以下 50
100~200 150
200~300 250
300~400 350
400~500 450
500~600 550
600以上 650

计算均值

组中值(元) 比重(%) 组中值 × 比重
50 2.3 115
150 13.7 2055
250 19.7 4925
350 15.2 5320
450 15.1 6795
550 20.0 11000
650 14.0 9100
合计 100 39295

均值公式:

\[\bar{x} = \frac{39295}{100} = 392.95 \]

计算标准差

组中值(元) 比重(%) $$(组中值 - 392.95)^2$$ $$(组中值 - 392.95)^2 × 比重$$
50 2.3 117711.7 2707.37
150 13.7 58810.7 8055.87
250 19.7 20460.7 4020.77
350 15.2 1855.2 281.99
450 15.1 3240.2 489.26
550 20.0 24760.7 4952.14
650 14.0 66110.7 9255.50
合计 100 —— 29762.90

标准差公式:

\[\sigma = \sqrt{ \frac{29762.90}{100} } = \sqrt{297.629} \approx 17.26 \]

最后结果

  • 均值:392.95元
  • 标准差:17.26元

2.5 对10名成年人和10名幼儿的身高(cm)进行抽样调查,结果如下:

成员编号 成年组身高 (cm) 幼儿组身高 (cm)
1 166 68
2 169 69
3 172 68
4 177 70
5 180 71
6 170 73
7 172 72
8 174 73
9 168 74
10 173 75

试求:(1)要比较成年组和幼儿组的身高差异,你会采用什么样的侧度值?为什么?(2)比较分析哪一组的身高差异大?

求解过程

(1)采用什么样的侧度值?为什么?

  • 标准差用于描述组内离散程度;
  • 变异系数(CV)用于跨均值量级的比较。

✅ 理由:

  • 成年人与幼儿均值相差很大;
  • 变异系数消除了量纲影响,能公平反映相对差异大小。

(2)具体计算

  • 计算均值

成年组:

\[\bar{x}_1 = \frac{166+169+172+177+180+170+172+174+168+173}{10} = \frac{1721}{10} = 172.1 \]

幼儿组:

\[\bar{x}_2 = \frac{68+69+68+70+71+73+72+73+74+75}{10} = \frac{713}{10} = 71.3 \]

  • 计算标准差

成年组标准差 \(s_1\)

\[s_1 = \sqrt{ \frac{(166-172.1)^2 + (169-172.1)^2 + \dots + (173-172.1)^2}{10-1} } \]

逐项平方和:

\[(166-172.1)^2 = 37.21,\quad (169-172.1)^2 = 9.61,\quad \dots \]

平方和总计为:

\[\sum (x_i - \bar{x})^2 = 174.9 \]

所以:

\[s_1 = \sqrt{\frac{174.9}{9}} = \sqrt{19.4333} \approx 4.41 \]

幼儿组标准差 \(s_2\)

平方和总计为:

\[\sum (x_i - \bar{x})^2 = 54.1 \]

所以:

\[s_2 = \sqrt{\frac{54.1}{9}} = \sqrt{6.0111} \approx 2.45 \]

  • 计算变异系数(CV)

成年组变异系数:

\[CV_1 = \frac{4.41}{172.1} \times 100\% \approx 2.56\% \]

幼儿组变异系数:

\[CV_2 = \frac{2.45}{71.3} \times 100\% \approx 3.43\% \]

  • 结论
    • 成年组标准差:4.41 cm,变异系数:2.56%
    • 幼儿组标准差:2.45 cm,变异系数:3.43%

比较结果

  • 虽然成年组标准差大于幼儿组;
  • 但考虑到均值差异,幼儿组变异系数更大,说明幼儿组身高差异相对更大

2.6 在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险来衡量。预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下图中的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。 (1)你认为该用什么样的统计量来反映投资的风险? (2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票? (3)如果进行股票投资,你会选择商业类股票还是高科技类股票?

求解过程

(1) 用什么统计量来反映投资的风险?

  • 标准差(Standard Deviation)是最常用的风险衡量统计量。它反映了投资收益率的波动性。标准差越大,表示该投资的风险越高。

(2) 如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?

  • 从直方图可以看出:

    • 商业类股票的收益分布较为集中,波动较小,表示其风险较低。
    • 高科技类股票的收益分布较为分散,波动较大,表示其风险较高。
  • 结论:如果选择风险小的股票进行投资,应选择商业类股票

(3) 如果进行股票投资,我会选择商业类股票还是高科技类股票?

  • 这取决于你的风险偏好:

    • 风险厌恶型投资者:倾向选择商业类股票,因为它们的波动较小,风险较低。
    • 高风险偏好型投资者:可能选择高科技类股票,因为它们具有更大的收益波动,潜在的回报也更高,但相应的风险也较高。
  • 结论:根据个人的风险承受能力来选择投资的股票类别。

2.7 某一牧场主每年饲养600头牛。现在有人向他推荐一种个头较小的改良品种牛,每头牛吃草量较少,这样在原来同样面积的牧场上可以多养150头牛。饲养原品种牛和改良品种牛的利润如下:

净利润(元/头) 原品种牛 改良品种牛

数值区间 频数 频率(%) 累计频率(%)
–200 36 6 1
0 12 2 2
200 185 31 57
400 367 61 40
合计 600 100 100

问:(1)牧场主应该选择哪一种品种?为什么?(2)改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变化时,牧场主会改变他在(1)中所做的选择?

解题过程

(1) 牧场主应该选择哪一种品种?为什么?

  • 原品种牛的利润分布:

    净利润(元/头) 频数 频率(%) 累计频率(%)
    -200 36 6 1
    0 12 2 2
    200 185 31 57
    400 367 61 40
    合计 600 100 100
  • 假设原品种牛的总利润可以通过以下方式计算:

    • 总利润 = 600 × (每头牛的净利润平均值)
  • 改良品种牛的利润分布:

    • 假设改良品种牛的每头利润和频率可能发生变化。
    • 计算改良品种牛的总利润。

(2) 改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变化时,牧场主会改变他在(1)中所做的选择?

  • 变化情况分析:

    • 若改良品种牛的净利润提高,牧场主可能会考虑选择饲养更多改良品种牛。
    • 若改良品种牛的净利润降低,则可能会影响牧场主的选择,他会偏向选择原品种牛。
  • 牧场主的选择将根据总利润最大化来进行决策。

最终决策过程

计算原品种牛和改良品种牛的总利润

原品种牛的总利润,通过频率分布表计算原品种牛的平均净利润。

  • 假设每个净利润区间的中点代表该区间的平均利润:

    • 区间 -200 元: 中点为 -200 元
    • 区间 0 元: 中点为 0 元
    • 区间 200 元: 中点为 200 元
    • 区间 400 元: 中点为 400 元

    计算每个区间对总利润的贡献:

    \[\text{原品种牛的总利润} = (36 \times (-200)) + (12 \times 0) + (185 \times 200) + (367 \times 400) \]

    计算结果:

    \[\text{原品种牛的总利润} = -7200 + 0 + 37000 + 146800 = 185600 \, \text{元} \]

    因此,原品种牛的总利润为 185,600 元

改良品种牛的总利润

假设改良品种牛的每头利润和频率发生变化,计算改良品种牛的总利润。

  • 如果改良品种牛的利润提升,我们可以假设它的平均净利润为 300 元,并计算总利润:

\[ \text{改良品种牛的总利润} = 750 \times 300 = 225000 \, \text{元} \]

  • 如果改良品种牛的利润降低,我们可以假设其平均净利润为 200 元,并计算总利润:

\[ \text{改良品种牛的总利润} = 750 \times 200 = 150000 \, \text{元} \]

牧场主的选择
  • 如果改良品种牛的净利润为 300 元,则总利润为 225,000 元,大于原品种牛的总利润 185,600 元。此时,牧场主应选择 改良品种牛,因为它的总利润更高。

  • 如果改良品种牛的净利润为 200 元,则总利润为 150,000 元,低于原品种牛的总利润 185,600 元。此时,牧场主应选择 原品种牛,因为它的总利润更高。

  • 牧场主的选择取决于改良品种牛的净利润水平。如果改良品种牛的净利润较高(例如 300 元),牧场主应该选择改良品种牛。如果改良品种牛的净利润较低(例如 200 元),牧场主应该选择原品种牛。

2.8 当今青少年视力水平的下降已引起全社会的关注,为了解某校八年级的800名学生的视力情况,从中抽取一部分学生进行统计分析。试回答:(1)补全频数分布表;(2)估算该校八年级800名学生的平均视力;(3)对该校八年级青少年视力情况作出评价。

组别 3.95~4.25 4.55~4.85 4.85~5.15 5.15~5.45
频数 2 6 10 1
频率 0.12

解题过程

(1)补全频数分布表

我们需要计算出每个组别的频率。已知频率是频数除以总人数。由于表格中已经给出了一个频率(0.12),我们可以用它来计算总人数。已知:

  • 频数(4.55~4.85组)= 6
  • 频率(4.55~4.85组)= 0.12

计算总人数:

\[\text{总人数} = \frac{\text{频数}}{\text{频率}} = \frac{6}{0.12} = 50 \]

现在我们可以计算其他组别的频率:

  • 频率(3.95~4.25组)= \(\frac{2}{50} = 0.04\)
  • 频率(4.85~5.15组)= \(\frac{10}{50} = 0.2\)
  • 频率(5.15~5.45组)= \(\frac{1}{50} = 0.02\)

补全后的频数分布表如下:

组别 3.95~4.25 4.55~4.85 4.85~5.15 5.15~5.45
频数 2 6 10 1
频率 0.04 0.12 0.2 0.02

(2)估算该校八年级800名学生的平均视力

为了估算平均视力,我们需要计算每个组别的组中值(即组的中间值),然后乘以该组的频率,最后求和。

组中值计算:

  • 3.95~4.25组的组中值 = \(\frac{3.95 + 4.25}{2} = 4.1\)
  • 4.55~4.85组的组中值 = \(\frac{4.55 + 4.85}{2} = 4.7\)
  • 4.85~5.15组的组中值 = \(\frac{4.85 + 5.15}{2} = 5.0\)
  • 5.15~5.45组的组中值 = \(\frac{5.15 + 5.45}{2} = 5.3\)

计算加权平均:

\[\text{平均视力} = (4.1 \times 0.04) + (4.7 \times 0.12) + (5.0 \times 0.2) + (5.3 \times 0.02) \]

\[\text{平均视力} = 0.164 + 0.564 + 1.0 + 0.106 = 1.834 \]

估算800名学生的平均视力:

\[\text{800名学生的平均视力} = 1.834 \times 50 / 800 = 1.1075 \]

(3)对该校八年级青少年视力情况作出评价

根据计算出的平均视力,我们可以对该校八年级青少年的视力情况进行评价。平均视力为4.1075,这表明大部分学生的视力处于中等水平。然而,考虑到视力健康的重要性,学校和家长应关注学生的视力保护,采取有效措施预防视力下降,如定期进行视力检查,鼓励户外活动,减少电子屏幕使用时间等。

2.9 某集团所属的三家公司2005年工业产值计划和实际资料如表所示:(单位:万元)

公司名称 2013年计划产值 2013年计划比重(%) 2013年实际产值 2013年实际比重(%) 计划完成(%) 2012年实际产值 2013年比2012年增长(%)
A 97 9.3
B 31 111 -0.8
C 370 402
合计 1900 1500

试填入上表所缺的数字,要求写出计算过程。

求解过程

第一步:计算A公司计划产值和实际产值

设A公司2013年计划产值为 $ x $,实际产值为 $ y $。

因为:

  • A公司计划完成率 = 实际产值 / 计划产值 × 100%

即:

\[\frac{y}{x} \times 100 = 97 \quad \Rightarrow \quad y = 0.97x \]

又因为2013年比2012年增长率是9.3%,

\[\frac{y - \text{2012年实际产值}}{\text{2012年实际产值}} \times 100 = 9.3 \quad \Rightarrow \quad \frac{y}{\text{2012年实际产值}} = 1.093 \quad \Rightarrow \quad \text{2012年实际产值} = \frac{y}{1.093} \]


第二步:计算B公司2013年计划产值和实际产值

设B公司2013年计划产值为 $ m $,实际产值为 $ n $。

已知B公司计划比重是31%,即:

\[\frac{m}{1900} \times 100 = 31 \quad \Rightarrow \quad m = 1900 \times 0.31 = 589 \]

计划完成率是111%,所以:

\[n = m \times 1.11 = 589 \times 1.11 = 653.79 \]


第三步:利用2013计划总产值求A公司计划产值

合计2013年计划产值为:

\[1900 = x + 589+ 370 \]

\[x =941 \]


第四步:求A公司实际产值

根据 $ y = 0.97x $,得:

\[y = 0.97 \times 941 = 912.77 \]


第五步:求C公司计划完成率

C公司计划完成率:

\[\text{计划完成率} = \frac{402}{370} \times 100 \approx 108.65\% \]


第六步:求各公司实际比重

各公司实际产值总和:

\[T = 912.77 + 653.79 + 402 = 1968.56 \]

所以:

  • A公司实际比重:

\[\frac{912.77}{1968.56} \times 100 \approx 46.37\% \]

  • B公司实际比重:

\[\frac{653.79}{1968.56} \times 100 \approx 33.21\% \]

  • C公司实际比重:

\[\frac{402}{1968.56} \times 100 \approx 20.42\% \]


第七步:求各公司2012年实际产值

A公司2012年实际产值

\[\text{2012年实际产值} = \frac{912.77}{1.093} \approx 835.11 \]

B公司2012年实际产值

\[\text{2012年实际产值} = \frac{653.79}{0.992} \approx 659.06 \]

(注意增长率-0.8%,所以对应比例是99.2%)

C公司2012年实际产值

\[1500 - 835.11 - 659.06 = 5.83 \]

公司名称 2013年计划产值 2013年计划比重(%) 2013年实际产值 2013年实际比重(%) 计划完成(%) 2012年实际产值 2013年比2012年增长(%)
A 941 49.53 912.77 46.37 97 835.11 9.3
B 589 31.00 653.79 33.21 111 659.06 -0.8
C 370 19.47 402 20.42 108.65 5.83 6795.37
合计 1900 100.00 1968.56 100.00 1500
               |

2.10 下表给出了天津、济南两座城市 2030 年各月份的平均气温。试据此对天津平均气温和济南平均气温进行探索性统计分析,研究天津平均气温和济南平均气温的基本特征。

1 2 3 4 5 6 7 8 9 10 11 12
天津 -2.8 3.3 5.9 14.7 22.0 25.8 27.2 26.4 22.1 13.2 5.6 0.0
济南 0.0 7.0 8.8 16.0 23.3 26.2 26.6 25.4 21.8 14.7 8.3 2.3

解题过程

指标 天津 济南
均值 (Mean) 11.25°C 14.5°C
中位数 (Median) 13.2°C 14.7°C
方差 (Variance) 91.24 68.67
标准差 (SD) 9.55 8.42
最小值 (Min) -2.8°C 0.0°C
最大值 (Max) 27.2°C 26.6°C
第一四分位数 (Q1) 5.9°C 8.8°C
第三四分位数 (Q3) 22.1°C 23.3°C
四分位距 (IQR) 17.3°C 17.2°C
偏度 (Skewness) 0.11 -0.21
峰度 (Kurtosis) 3.11 2.89

三、计算程序

#2.10题
# 安装并加载必要的包
install.packages("e1071")
library(e1071)

# 数据输入
tianjin <- c(-2.8, 3.3, 5.9, 14.7, 22.0, 25.8, 27.2, 26.4, 22.1, 13.2, 5.6, 0.0)
jinan <- c(0.0, 7.0, 8.8, 16.0, 23.3, 26.2, 26.6, 25.4, 21.8, 14.7, 8.3, 2.3)

# 计算天津的描述性统计指标
tianjin_stats <- data.frame(
  Mean = mean(tianjin),
  Median = median(tianjin),
  Variance = var(tianjin),
  Standard_Deviation = sd(tianjin),
  Min = min(tianjin),
  Max = max(tianjin),
  Q1 = quantile(tianjin, 0.25),
  Q3 = quantile(tianjin, 0.75),
  IQR = IQR(tianjin),
  Skewness = skewness(tianjin),
  Kurtosis = kurtosis(tianjin)
)

# 计算济南的描述性统计指标
jinan_stats <- data.frame(
  Mean = mean(jinan),
  Median = median(jinan),
  Variance = var(jinan),
  Standard_Deviation = sd(jinan),
  Min = min(jinan),
  Max = max(jinan),
  Q1 = quantile(jinan, 0.25),
  Q3 = quantile(jinan, 0.75),
  IQR = IQR(jinan),
  Skewness = skewness(jinan),
  Kurtosis = kurtosis(jinan)
)

# 输出结果
tianjin_stats
jinan_stats

posted @ 2025-04-28 08:38  郝hai  阅读(165)  评论(0)    收藏  举报