SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据的: $\large \bm{Measure+Scale+Type(Nominal/Ordinal/Interval/Ratio)}$

SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_多元数据统计分析: 多元数据

多元数据和多元统计分析
<<实用多元统计分析>> 清华大学出版社,5校 正文1.indd 1 2023/9/12 17:14:25

学术用语

\(\large \begin{array}{rl} \\ \bm{ Object }:& 对象(观测的) \\ \bm{ Observation }:& 观测 \\ \bm{ Variable }:& 变量(统计的) \\ \bm{ Measure }:& 测量(计量) \\ \bm{ Level }:& 水平(阶层, 测量的) \\ \bm{ Scale }:& 尺度(测量的) \\ \bm{ Categories }:& 类别 \\ \bm{ Data }:& 数据 \\ \end{array}\)

\(\large \bm{Missing\ Values}\)(缺失值, not known, NK)

  • 通过 缺失分析 确定变量观察值产生缺失的原因对研究很重要
  • 缺失值会导致本书介绍的许多分析方法出现问题,缺失值越多问题相对越严重。
  • 有很多方法可以处理缺失数据问题(有效的和无效的, 但这些方法的讨论超出本书的范围),
    常用方法是根据未缺失数据的信息估计文献的缺失值, 例如有:
    • 既有简单的: 使用非缺失数据的平均值代替缺失值,
    • 又有复杂的: 借助数据随机性的多重插补(填补)方法(multiple imputation).

数据的 \(\large \bm{Measure\ +\ Scale\ + \ Type}\)

数据是对对象进行计量的结果,不同的计量尺度会产生不同的结果(数据)

  • 同一Variable(变量, 观测并测量的),可使用不同的Scale(尺度); 根据观测目标确定选择。
    观测并测量得到的不同类型数据,需要不同的统计分析方法,
    一般适合分析低水平尺度数据的方法,也可用于分析高水平尺度数据,反之不一定成立。
  • Scale of Measure(计量尺度)有四种,即定类尺度、定序尺度、定距尺度和定比尺度。
  • Data Type(数据分类)
    统计学上, 我们将用以上四种尺度计量得到的数据, 分成两大类:
    • 品质型数据(类别数据或定性数据): 定类数据 和 定序数据
    • 数值型数据: 定距数据 和 定比数据。

  1. \(\large Nominal\ Scale\)(定类尺度): 是测量的最低水平,最常用于定性而非定量的变量。

    • 使用定类尺度计量, 变量被划分为几个类别(categories), 通过确定对象所属类别"测量"对象
      用定类尺度测量, 实际是分类对象, 并给出其类别的名称, 这也是将其称为名义尺度的缘由。
    • 例如,跑鞋的牌子, 水果的种类, 音乐的种类, 月份, 宗教信仰, 眼睛颜色等。
    • 定类尺度计量层次最低,具有如下特征:
      • 对事物进行平行的分类。各类别可以指定数字代码表示。
      • 数据表现为“类别”。
      • 使用时必须符合类别穷尽(Collectively Exhausive)和互斥(Mutually Exclusive)的要求。
      • 有“=”或“≠”的数学特性。
    • 一个变量计量时使用定类尺度 则称这个变量为定类变量, 计量(测量)结果 称为 定类数据。
  2. \(\large Ordinal\ Scale\)(定序尺度):
    有相对较低的计量层次,但测量水平高于定类尺度,它有相对低层次的数量特性。

    • 一个变量计量时使用定序尺度, 则称其为定序变量,计量(测量)结果称为定序数据。
    • 例如,社会阶层, 对健康的自我感知(编码I到V), 教育水平(没受过学校教育/小学/中学/高等教育)等。
    • 定序尺度具有如下特征:
      • 对事物分类的同时给出各类别的顺序; 。
      • 数据表现为“类别”,并且“有序”。
      • 比定类尺度更精确, 但未测量出类别之间的准确差值。
      • 具有“>”或“<”的数学特性。
  3. \(\large Interval\ Scale\) (定距尺度):
    比定序尺度有更高的测量水平, 它有数量特性相邻单位等间隔,但没有绝对零点(零点位置可任选)。
    因此,定距尺度具有定序尺度的性质,且相邻的单位间隔的测量值相等。

    • 一个变量的计量使用间隔尺度, 则称其为定距变量, 计量(测量)结果称为定距数据, 这些数据为数值型数据
    • 术语“相邻单位等间隔”意指相邻单位上变量被测量的值是一样的。
      因为间隔尺度具有相邻单位之间变量计量(测量)xx值相等的性质,
      所以相同间隔之间的差异也表示变量的测量值具有相同的差异。
    • 在某些情况下,类似抑郁、焦虑或智力的测量,实际难以计量时(实际上也确实难以对其进行准确的测度),
      则可使用间隔尺度对这些变量进行计量。
    • 例如, 使用摄氏温度计或华氏温度计测量温度。
  4. \(\large Ratio\ Scale\)(定比尺度):
    是最高计量水平的计量尺度,对这种尺度测量的数据可以分析其相对大小它们的差异,其零点位置固定的

    • 一个变量计量使用定比尺度, 则称其为定比变量, 计量(测量)结果称为定比数据, 这些数据为数值型数据
      例如,年龄、从任何固定事件起算的时间、事件发生的频率、体重、长度等。

例 1.1

对 6 个变量 进行 10次观测(10 个个体) 的结果,如表 1-1 所示。

  • 表 1-1 可以看作是一个 \(\large 10 \times 6\) 阶的数据矩阵,相当于对 6 个变量, 观测了 10 次。
    “性别”变量、“忧郁”变量为定类变量,
    “健康状况”变量为定序变量,
    “IQ”变量为定距变量,
    “年龄”变量、“体重”变量为定比变量。
  • 表 1-1 中的定性信息可采用数值代码表示。例如,可定义
    定类变量“性别”的取值为:男性 =1,女性 =2;
    定序变量“健康状况”取值用 1~5 表示,取值为 5 表示很好,取值为 1 表示很差等。
    但是,这里需要注意的是这些相同的数字代码(如 1)表达完全不同的信息,其与测量的尺度有关。
  • 表 1-1 的另一个特征是它包含Missing Values;

表 1-1 含有 6个变量 的 10个观测数据

个体编号 性别 年龄/岁 IQ 忧郁症 健康状况 体重/千克
1 21 120 很好 68
2 43 NK 很好 72.5
3 22 135 一般 61.2
4 86 150 很好 63.5
5 60 92 较好 49.9
6 16 130 较好 49.9
7 NK 150 很好 54.4
8 43 NK 一般 54.4
9 22 84 一般 47.6
10 80 70 较好 45.4
posted @ 2024-10-06 14:41  abaelhe  阅读(71)  评论(0)    收藏  举报