密西根大学调查数据收集和分析笔记-全-

密西根大学调查数据收集和分析笔记（全）

001：课程定位说明 📚

在本课程中，我们将学习调查数据收集的核心方法、不同模式的特点，以及它们如何影响调查的整体质量与误差。我们将从经典的数据收集模式开始，逐步探讨新兴技术和方法。

我是弗雷德·康拉德，密歇根大学的社会研究方法学家和心理学家，隶属于社会研究所的调查方法论项目，同时也是马里兰大学联合调查方法论项目的研究教授。

欢迎来到《数据收集方法》课程，这是专项课程中的一门。我们当前所处的第一课是导论，随后将讨论经典的调查数据收集模式，特别是电话、面对面和邮寄问卷。接着，我们会探讨数据收集模式的含义、不同概念，并确保我们对此有共同的理解。同时，我们将介绍调查误差的概念，以及模式与调查误差之间的关系。例如，某些模式可能会增加无应答率及无应答误差的风险。

那么，这门课程是什么？它旨在审视所有数据收集决策中固有的成本与误差权衡。通常，你可以通过投入更多资源来减少误差。我们将讨论不同类型的误差。作为研究者，增加成本通常可以减少误差。或者，如果你能容忍一定程度的误差，那么你或许能够以更低的成本收集数据。

这门课程是对调查数据收集的科学性审视，这意味着它基于科学文献中的发现，主要是经过同行评审的已发表文献。它并非关于个人经验和轶事，尽管这些在设计调查，特别是数据收集流程时，也是信息的合法来源。但我们的重点在于科学文献。

它提供了一个关于调查设计的全面视角，旨在提升整体质量。这意味着我们将审视调查过程中不同阶段可能出现的各种误差来源，并观察它们如何相互影响。因此，这是对数据收集设计的整体性视角。

这门课程不是关于如何具体操作一门课程。它并非为你出去自行开展调查提供资格认证，你将在专项课程的其他部分获得相关实践知识。本课程更侧重于概念性内容，并再次强调科学文献中的发现。当然，我们希望这能为实践活动提供基础，但这并非本课程的核心焦点。

它不是一门关于如何设计问卷的课程。专项课程中包含问卷设计课程，我们会在本课程中提及相关概念，但这不是本课程的主题。

它并非对整个调查过程的全面回顾。例如，我们在本课程中很少讨论抽样或加权。

如前所述，它不是基于对主题的意见或感受的课程，而是真正关于已发表的文献。

它也不是一门统计学课程，尽管统计概念和符号会在课程中有所使用。

那么，本课程涵盖哪些内容？在当前部分，即导论中，我们将讨论数据收集模式、模式的含义，以及模式与调查误差的关系，特别是经典的面对面、电话和邮寄模式。我们将比其他误差来源更详细地讨论一个特定的误差来源——无应答误差。它确实经常出现，虽然所有误差来源都需考虑，但我们将在导论中聚焦于无应答误差。

在第二课中，我们将讨论自填式与在线数据收集，特别是自动化的自填式。我们将讨论访谈中的自动化，例如，面对面访谈中的访员通常使用计算机设备（笔记本电脑或平板电脑），这被称为计算机辅助访谈。访员读出问题并将答案直接输入设备。我们还将讨论自填式，即访员将设备交给受访者，由其输入通常被视为敏感问题的答案。其理念是这为受访者提供了一定程度的隐私。其中一种模式称为音频计算机辅助自填式访谈，受访者通过耳机听到问题，可能在屏幕上看到问题，然后选择并输入答案到设备中。

我们将讨论在线或网络数据收集，其中不涉及访员，完全由受访者自填。这里存在一系列涉及不同误差来源的问题，如覆盖误差、无应答误差和测量误差。

接着，我们将讨论混合模式调查，即在特定研究的数据收集过程中结合使用不同模式。这引出了在某些混合模式设计中，给予受访者选择如何完成问卷的自主权问题，因此我们将讨论受访者模式选择的问题。

然后，我们将转向讨论访员与访谈，这实际上可分解为几个部分。访员除了进行访谈（即提问和记录答案）外，还承担许多任务。除了访谈外，最重要的任务可能是获取访谈，即招募样本成员成为受访者并参与调查。在家庭调查中，一旦被抽样的家庭成员同意参与，通常还有一个家庭内选择过程，通过随机过程选择一名家庭成员（不一定是与访员交谈的那位）作为受访者。我们将讨论招募过程和家庭内受访者选择。

我们将讨论所谓的访员效应，即访员可能引入两种误差：偏差和方差。这里的要点是，访员在许多方面增加了价值，但同时也存在成本。例如，不同访员可能以不同方式执行问卷，这会引入一定与访员相关的方差，这通常不是好事。因此，我们将讨论这些类型的访员效应，以及可能由访员持久特征（如种族、性别、年龄等）引起的访员效应。

第四讲，也是最后一讲，将重点讨论新兴的数据收集模式和新数据源。我们将讨论的新模式主要是移动网络。我们将讨论更传统的、通常在台式机或笔记本电脑上完成的网络调查。在智能手机上（通过浏览器或专用应用程序）作答已变得越来越普遍。调查行业正在努力跟上公众通过使用移动设备所展现的需求，因此我们将讨论移动网络，以及使用短信进行访谈。这与移动网络略有不同，实际上不一定非要在智能手机上进行，但通常如此，并且其结构比在智能手机上自填的网络问卷更具轮转性、更偏向于来回互动。

我们还将讨论行政记录作为一种替代数据源。使用行政记录通常需要将调查受访者或公众成员的数据与记录中的个人标识进行匹配。这并非易事，需要一定的统计推测和知情推测，以及受访者同意将其调查回答与行政记录关联。但行政记录的巨大前景在于，它可以通过避免询问公众那些答案已存在于行政记录中的问题，来减轻公众负担，并为政府机构等调查研究者节省大量资金。

我们将讨论的另一个新数据源或潜在数据源是社交媒体。目前尚不完全清楚如何以及何时能以类似调查的方式使用这一数据源，但我们将讨论社交媒体作为调查数据收集的可能补充甚至替代方案。如前所述，我们还不完全了解社交媒体何时以及如何扮演这一角色，但已有一些有希望的证据表明，社交媒体或多或少能复现某些调查中特定问题的结果。因此，我们将探讨社交媒体在何种情况下更可能或更不可能讲述与调查数据相同的故事。

除了讲座之外，本课程另一类重要内容是我与调查数据收集领域的专家和领导者进行的一系列访谈。这些访谈涉及混合模式数据收集和在线数据收集等主题，它们补充并实际上超越了讲座内容。我个人发现这些访谈中的讨论非常令人兴奋和投入，希望你们也会有同感。

我期待与你们分享这些材料，并了解你们的反馈。希望你们能充分利用课程中的讨论板，以便我们了解你们的进展。

考虑到这一点，我期待与你们一起学习，让我们继续本课程的其他部分。

非常感谢。

002：调查误差导论

在本节课中，我们将学习调查误差的核心概念。我们将介绍一个在调查研究者中广泛使用的框架——总调查误差。这个框架帮助我们系统地审视影响调查估计值的各种误差来源。我们将重点区分可变误差与偏差，以及观察误差与非观察误差。理解这些概念对于设计高质量的调查至关重要。

总调查误差框架

上一节我们介绍了课程的整体目标，本节中我们来看看调查误差的总体框架。总调查误差框架将误差来源分为两条并行的主线：一条与测量（即问卷回答）相关，另一条与代表性（即样本结果能否代表总体）相关。

下图清晰地展示了这一分类：

测量误差

测量过程始于我们希望测量或量化的构念或概念。我们通过设计一个或多个调查问题来操作化这个构念。

构念效度误差：如果问题未能准确捕捉目标构念，就会产生效度不足的误差。例如，用“收入”单一问题来测量“财富”或“贫困”构念，就可能存在效度误差，因为财富还包含资产、债务等其他因素。

假设我们设计的问题能准确操作化目标构念，当向受访者提问时，他们的回答也可能与真实情况不符。这被称为测量误差。产生原因包括：

受访者未能准确理解问题意图。
受访者难以回忆相关信息。
问题涉及敏感话题，受访者可能因社会期许而不愿诚实回答（尤其在访员面访时）。

代表性误差

代表性方面，我们从一个总体（如全国人口）开始。由于无法调查总体中的每一个人，我们需要一个能代表总体的操作化列表，即抽样框。

覆盖误差：并非总体中的每个个体都能进入抽样框。例如，以电话号码簿为框，就无法覆盖没有电话的人。如果这些未被覆盖的人在调查关注的属性上与已被覆盖的人存在显著差异，就会产生覆盖误差。覆盖误差的大小取决于两个因素：
1. 未被覆盖者与已被覆盖者在目标属性上的差异大小。
2. 未被覆盖者的数量。

从抽样框中，我们抽取一个样本。

抽样误差：由于我们只抽取一个样本，这个样本的特征可能无法完美代表抽样框或总体。样本量越小，抽样误差可能越大。

假设我们抽取的样本能尽可能代表总体，接下来面临的问题是，并非样本中的每个个体都会或都能参与调查。

无回答误差：这包括无法联系到样本个体（如不接电话、住在封闭社区），以及联系后拒绝参与。无回答本身不一定是误差，但当无回答者在调查关注的属性上与回答者存在差异时，就产生了无回答误差。其大小同样取决于：
1. 无回答者与回答者在目标属性上的差异大小。
2. 无回答者的数量。

核心概念与总结

以上是调查中主要的误差来源。本课程将主要关注测量误差、覆盖误差和无回答误差。数据收集后的处理过程（如编辑、调整数据）也可能引入误差，但本课程不做重点讨论。

总调查误差是一种系统思考可能影响调查统计量的各种误差来源的方式。其目标是成功地对更广泛的总体进行推断或概化。调查质量是调查误差的反面，衡量的是这种推断努力的成功程度。

需要明确的是，这里的“误差”并非指“错误”，而是统计意义上的不确定性或推断的置信度不足。

总调查误差视角让我们可以思考均方误差这个概念。从概念上讲，均方误差是某项调查中所有可变误差与所有偏差的总和，是将不同误差来源汇总为一个量的方式。公式表示为：

MSE(θ̂) = Var(θ̂) + [Bias(θ̂)]²

其中，θ̂ 是总体参数 θ 的估计量。

在实践中，误差是针对特定统计量或估计值而言的。我们很少能真正量化所有误差来源，因此总调查误差更多是一个概念性框架。总调查误差方法的核心价值在于，它能让我们在评估调查设计决策时，同时考虑对多种误差来源（如抽样、覆盖、无回答、测量误差）的影响，而不仅仅是单一误差。

本节课中，我们一起学习了总调查误差的基本框架，区分了测量误差与代表性误差下的不同误差类型。下一节，我们将深入探讨总调查误差框架中的两个核心概念：真值，以及可变误差与偏差的关键区别。

003：变量误差与偏倚 📊

在本节课中，我们将要学习调查研究中两个核心概念：变量误差与偏倚。我们将了解它们的定义、区别，以及它们如何影响调查数据的质量。

调查研究者假设，从调查中得出的估计值存在一个实际或真实值。一个相关的、对于理解偏倚尤为重要的概念是真实值。这是调查中所测量事物的实际值。有时它是可知的，例如，通过行政记录，我们可以获得所调查问题的客观指标。但通常它并不可知，这很合理，因为如果它可知，就没有太多理由去进行这项调查或询问这个特定问题了。在这种情况下，真实值变得更概念化，或者至少我们必须通过间接方式去获取。

有时，真实值是根据测量过程本身来定义的。例如，智商就是智商测试的分数，它在某种程度上是自我定义的，并且具有预测效度，即智商测试能较好地预测某些结果，即使我们并不确切知道智商意味着什么。

测量误差是观察值（即问题的答案）与真实值之间的差异。同样，真实值通常并不可知，我们必须推断测量误差是什么。

我已经多次区分了变量误差和偏倚。

变量误差的产生，是因为答案会随着设计中的不同单元（如访员、样本人员、受访者）以及我们所问的问题而变化。我们测量一个统计量（即对某个问题的回答）的方差。例如，当我们谈论访员相关方差时，是针对某个特定问题，而不是访员询问的所有问题。变量误差可能发生在参与者之间或参与者内部。为了最小化它，我们会将受访者随机分配给访员，并努力保持所谓的基本调查条件一致，这主要指数据收集的模式、时间以及操作流程的各个方面。

这与调查研究者所称的偏倚形成对比，偏倚指的是方向性误差，即回答或估计值可能系统地大于或小于真实值。但这要求我们知道真实值是什么，而这正是测量偏倚的关键。如果我们对真实值有所了解，就可以量化偏倚。但通常，我们会测量方差，这几乎可以作为偏倚的一种替代或代理指标，因为方差更容易测量，并且数据本身就会提供方差信息。

一个我们可以在没有真实值的情况下探究偏倚的例子是：比较一个敏感问题（例如，一生中性伴侣的数量或吸毒史）在两种不同数据收集模式下的回答。一种模式涉及访员（如面对面访谈），另一种是自填模式（如网络调查），后者可能因较少污名感而更可能获得真实回答。如果我们看到差异，通常会假设自填模式（如网络）的结果更接近真实值。因此，我们可以说受访者在访员主导的模式下低估了这些社会不期望的行为（如吸毒）。

这张图明确展示了偏倚与方差的含义。

左侧的图代表了问题回答中的偏倚。我们假设靶心的红点是真实值，黑点或圆圈是回答。可以看到它们都聚集在一个方向上，大部分在靶心的上方和右侧，这意味着它们系统地偏离了真实值。这就是我之前举例说明的“高估”情况。
右侧的图代表了方差。同样，红圈是真实值，黑圈是各个回答。它们分布在真实值周围，虽然也不完全准确，但这种不准确性是通过回答相对于真实值的离散程度来体现的，而不是系统性的偏移。

在实践中，我们通常只有一个测量值。那么，如何测量方差和偏倚呢？我们可以使用基于复制的方法从样本本身测量方差，即选择若干子样本并计算这些子样本间的方差。但如前所述，要估计偏倚，需要外部数据或证据、真实值，或者关于效应方向的假设（如上述敏感问题在不同模式下的例子）。

接下来，我们看一些关于方差和偏倚的更多例子。

访员相关误差同时包含这两种类型，都被视为测量误差。

以下是访员相关误差的具体表现：

访员相关方差：可能表现为，对于像自评健康这样的测量指标，某些访员获得的平均回答较高，而另一些访员获得的较低。即使随机分配受访者给访员并采取其他保障措施，这种情况也可能发生。这通常归因于访员在提问或进行访谈时的差异，例如，他们可能以不同方式追问，或在其他行为上（如提问的语调）存在差异，尽管他们接受了相似的培训。所有这些都可能促成访员方差。如果不同访员对同一问题引出了不同的答案分布，而受访者是随机分配给访员的，那么这里就存在测量误差，方差在这种情况下可以告诉我们这一点。
访员偏倚：这指的是持续性的高估或低估。例如，对于“沮丧工人”数量的系统性低估，可能是因为所有访员在询问“你是否在找工作”这类问题时，都系统性地未能进行充分追问。关键在于，它必须是系统性的，即所有访员都以相同的方式不追问或过度追问。此外，访员的持久性特征（如种族、性别、年龄）也可能系统性地影响对特定主题（如种族态度、性别平等）问题的回答。可能出现低访员方差但高偏倚的情况，也可能所有访员收集的数据都很相似（低方差），但数据本身是不正确的。我们将在第三课详细讨论访员相关话题。

其他类型的方差和偏倚包括：

回答方差：例如，在纵向调查（即受访者在较长时间内每月接受访谈）中，受访者对同一个问题在不同波次给出不同答案。这可能发生在问题的答案本不应频繁变化的情况下，比如受访者的居住地址。当然，受访者会搬家，但不会那么频繁。如果地址变化的频率超出预期，就会表现为回答方差的增加，这表明可能存在误差。这可能源于受访者的不专注、问题措辞模糊，或问题措辞发生了变化。
回答偏倚：例如，对样本均值的系统性高估，这次与访员本身无关。像慈善捐款这样的问题就可能发生高估，原因包括社会期望偏差（人们通常认为报告捐款或捐更多款比不捐或捐得少更符合社会期望），以及时间错位现象——即受访者主观上将实际发生在参考期（问题所问的时间段）之前的事件，错误地记入该时期内，从而导致高报。

在下一节中，我们将讨论总调查误差框架在做出关于数据收集过程的设计决策时的意义。

本节课中，我们一起学习了变量误差与偏倚的核心概念。我们明确了真实值是测量的基准，测量误差是观察值与真实值的差异。变量误差反映了回答的无序波动，而偏倚则代表了系统性的方向错误。理解这两者的区别和来源，对于评估和改进调查数据的质量至关重要。

004：总调查误差框架 🎯

在本节课中，我们将要学习总调查误差框架。这个框架帮助调查设计者全面关注所有可能影响调查估计值的误差来源。我们将了解误差的主要类别、具体来源，以及如何在设计调查时权衡取舍以最小化误差。

总调查误差框架概述

总调查误差框架旨在让设计者聚焦于所有可能影响调查估计值的误差来源。它是对我们讨论过的各种误差来源的另一种系统性归纳，这些误差共同构成了总调查误差。

误差的主要类别

总调查误差主要分为两大类：非观测误差和观测误差。

非观测误差

非观测误差与受访者给出的具体答案无关，主要包括以下三种：

覆盖误差：抽样框未能完整覆盖目标总体。
抽样误差：由于仅调查样本而非全体而产生的误差。
无应答误差：未能从所有被选中的样本单位获得回答。

观测误差

观测误差主要就是测量误差。测量误差可能由多个来源导致，上一节我们介绍了非观测误差，本节中我们来看看观测误差的具体构成。

以下是测量误差的主要来源：

问卷与问题措辞：问题可能难以理解，或涉及敏感话题。
数据收集模式：数据收集的方式很重要。例如，在敏感话题上，采访员面访与受访者自填问卷会产生不同的测量误差。
采访员：采访员是否参与，以及其在多大程度上引入误差。
受访者：受访者是数据的最终提供者。如果受访者有理解困难、不专注、不诚实或试图最小化自己的回答努力，所有这些都会导致测量误差。

数据处理误差

除了上述误差，数据处理过程也可能引入误差。虽然我们不会深入讨论，但了解它们的存在很重要。

编辑：指基于其他答案，对看起来不一致或不可信的答案进行调整。
编码：将受访者用自己的话给出的回答进行分类。编码过程可能不准确，因为编码员是人，或者即使自动编码，其规则也是人制定的。
插补：这是计算或估计缺失数据的统计过程。插补也可能引入误差，因为它可能无法完美复现如果所有数据都可用时本应提供的数据。

调查设计中的权衡

在总调查误差框架下，我们设计调查的每个组成部分，以最小化该部分固有的误差。这通常涉及权衡。

例如：

为减少对普通人群调查的覆盖误差，可能使用邮寄问卷或面对面访谈，而非网络调查。因为并非所有人都有互联网接入，而缺乏接入的人群在某些待测属性上可能存在差异。
如果担心问题可能受人口覆盖不足的影响，那么使用覆盖问题较小的模式（如利用地址的邮寄或面访）可能更有意义。
为电话调查设计比邮寄更短的问卷，因为电话中人们有时间压力。这可能会减少测量误差和无应答。
在电话中，受访者需要记住整个问题，因此设计更短的问题会有所帮助。

这些是权衡的例子。如果我们不得不设计更短的问卷，就意味着我们无法询问所有想问的问题，但这样做可以避免失去受访者，从而减少缺失数据。因此，在数据收集设计中，知情且明确的权衡无处不在。

成功应用TSE框架的条件

总调查误差方法的成功应用依赖于关于成本和误差的良好信息，但我们并不总是拥有这些信息。这些信息可以是理论性的，也可以是经验性的。

理论证据：例如，采访员在场可能鼓励受访者提供更符合社会期望的答案，这是一个理论观点。
经验证据：我们可能从以往的调查中获得证据，用于评估所考虑方法的成本和误差。证据可以是直接的，也可以是间接的。

误差的来源与模式选择的影响

调查误差可能来自许多来源：调查主题、可用资金（这限制了我们减少误差的能力）、抽样框的完整性、数据收集模式、采访员培训等。

数据收集模式至少在一定程度上定义了可能发生的误差类型和水平。所选择的模式会显著影响结果的质量。

以下是一些基于TSE框架的设计决策例子：

为减少抽样误差，我们可能在固定成本下增加样本量。这是一个知情的权衡。
为减少无应答，我们可能选择面对面访谈而非电话访谈。面对面访谈更昂贵，但如果我们事先清楚这一点，就不会有意外。

总结与下节预告

本节课中我们一起学习了总调查误差框架。总调查误差的概念指导着我们关于调查设计和数据收集设计的决策。TSE框架有助于理解设计决策对调查误差的潜在影响，并且与成本一起，应成为设计决策过程中明确的一部分。

数据收集模式或方法是实施研究设计时所能做出的影响最大的决策之一。它需要考虑我们讨论过的所有误差来源和成本，并且应基于理论和经验证据。

在下一节中，我们将转向“模式”这一主题，深入探讨模式的具体含义，以及它如何影响调查误差和调查成本。

005：方法、社调问卷设计、抽样、缺失数据、分析：4_1.3.1 调查模式定义 📚

在本节课程中，我们将学习调查模式的定义、分类以及如何选择。我们还将探讨一种特殊的设计——让受访者选择回答模式，并分析其优缺点。

什么是调查模式？🔍

到目前为止，我们已经多次使用“模式”这个词，但尚未给出明确定义。本节的核心就是阐明“模式”的含义，并讨论研究人员如何选择调查模式。此外，在某些设计中，混合模式设计（我们稍后会讨论）很有意义，有时让受访者选择回答方式也是合理的。因此，本主题的第二部分将讨论受访者模式选择及其带来的利弊。

一种有用的思考方式是将模式视为媒介和代理的组合。

媒介指的是沟通渠道，例如声音、屏幕上的文字、纸上的文字或视频。这些都是构成模式一部分的不同媒介。
代理则指在模式中负责传递问题的角色。如果存在访问员，那么访问员就是与某个媒介配对的代理。在所谓的自填模式中，唯一的代理就是受访者本人，由受访者自行回答问题。自填模式越来越多地涉及自动化访问系统，当然，邮寄的纸质问卷也属于自填式。

模式的组合与分类 📊

采用这种组合思路，我们可以衍生出多种模式。例如：

访问员通过语音管理问卷，即电话访问员（仅语音）。
受访者自行完成语音访问，例如所谓的“机器人电话”，即由计算机系统拨打电话，受访者与之互动。
如果访问员管理纸质问卷，那就是一种组合。
受访者自行填写纸质问卷，等等。

直到最近，数据收集的主要模式只有少数几种：

面对面或入户访问：访问员进行访问，通常在受访者家中，也可在工作场所进行组织或商业调查。
邮寄或邮政调查：将纸质问卷邮寄给受访者。
电话调查：传统上指固定电话调查。移动电话也越来越多地用于电话调查，在某些情况下甚至成为受访者使用的主要设备。

近年来，方法数量激增，最显著的是在线或网络调查。此外，还有许多新模式，它们本质上是现有模式的变体：

移动电话调查：与固定电话调查非常相似，但涉及一些不同的考虑因素，例如受访者可能处于移动状态。
移动网络调查：类似于网络调查，问卷通过智能手机上的浏览器或应用程序显示。其许多属性与传统网络调查相似，但也有一些新特性，例如屏幕较小。

常见模式与缩写 📝

如果我们配对代理和媒介，可以这样描述许多现有方法，同时也有机会讨论调查研究人员和方法学家使用的一些缩写：

SQ：如果纸质问卷是自填的，即受访者完成纸质问卷，这就是我们所说的邮寄问卷。SQ 通常指自填式纸质问卷。
Web问卷：如果问卷在计算机上显示但由受访者自填，就是我们刚刚讨论的网络问卷。
TDE / IVR：TDE 指按键式数据输入，即之前提到的“机器人电话”，通常涉及受访者使用电话（无论是固定电话还是移动电话）上的按键输入回答。IVR 或交互式语音响应通常与按键式数据输入相同，但也有语音版本的 IVR，即受访者说出答案，系统被编程为识别受访者的语音。语音 IVR 不如按键式 IVR 常见，但正变得越来越普遍。
CASI：代表计算机辅助自填访问。这种模式与访问员管理（个人访问或面对面访问）结合使用，但用于问卷中的敏感问题。在询问非敏感问题后，访问员会将设备（通常是笔记本电脑）交给受访者，让其自行回答敏感问题。这样做的理念是，如果访问员不仅不问这些问题，而且不知道答案，受访者会更愿意如实回答可能令人尴尬的问题。
ACASI：本质上与 CASI 相同，但问题不仅以文本形式显示在屏幕上，也可以或仅以语音形式呈现，即受访者收听预先录制的音频问题。ACASI 或音频 CASI 指的就是这种情况，通常用于敏感问题，而访问员则在面对面访问中询问非敏感问题。
CATI：如果访问员管理问卷，可以通过电话或面对面等传统模式进行。访问员管理的电话调查实际上可以涉及纸质问卷，访问员可以从纸上读取问题，并将受访者提供的答案手写在纸上。但如今更典型的是，计算机向访问员显示问卷，访问员通过电话向受访者大声读出问题，并将从受访者那里听到的答案输入计算机。CATI 就是用来描述这种模式的缩写，但如果你听到“电话访问”，在当今通常就指 CATI。
CAPI：面对面或个人访问同样可以涉及纸质问卷，但更典型的是使用某种移动计算设备（笔记本电脑或平板电脑）来显示问题，访问员然后大声读出，并直接将受访者的答案输入设备。

新兴模式与未来展望 🚀

以上是现有的经典模式。还有一些即将出现的新模式：

移动网络：可以基于智能手机的浏览器或应用程序。
SMS或短信访问：越来越普遍，特别是在世界某些地区（例如发展中国家），发短信比用手机通话更常见。这可以是自填式或访问员管理式，覆盖率可能很高。正如所说，这种模式在发展中国家增长迅速，快于北美和西欧。
视频媒介访问：使用桌面视频或计算机上运行的视频越来越普遍。Skype、Google Hangout、FaceTime、BlueJeans 等一长串视频工具都很适合这种访问。虽然越来越可行，但尚未广泛使用。预计它会快速增长，因为它可能提供面对面访问的许多好处（如提高回答率、访问员能够解释问题含义），而无需承担派遣访问员到某地的差旅成本。相关研究问题在于它与面对面访问的相似度如何，是否能在保持优点的同时，减少可能导致受访者在回答敏感问题时隐瞒真相的成本（当通过视频媒介、访问员与受访者之间存在一定距离时，这种成本是否会降低）。
虚拟访问员：可以使用计算机动画访问代理，它们可以是自主的（背后有人工智能），也可以是预先录制的（并非实时决策或向不同受访者呈现不同内容）。这些也越来越可行，并在一定程度上使用，但尚未广泛使用。

模式选择与设计考量 ⚖️

正如我们所说，模式正在激增，这意味着作为调查研究人员，我们需要明确我们所使用的特定模式及其实现方式，因为存在很多差异，特定的实现方式会影响结果。因此，精确描述模式的实现方式至关重要，以便如果有人想复制研究，可以尝试使用与你完全相同的模式。

正在进行的模式激增使得对模式进行广泛概括变得更加困难，部分原因是文献中缺乏必要的研究来以知情的方式讨论这一点。因此，我们确实需要更多的理论来指导我们对模式影响的预期。此外，越来越多地使用模式的组合，因此出现了我们将在后续主题中讨论的混合模式调查，以及结合不同模式的混合设计。

再次思考“模式”的含义，可以从多个维度来理解这个概念：

访问员参与程度：访问员是否参与整个数据收集过程？如果是，这可能是计算机辅助个人访问。访问员在场，但受访者自行完成部分问卷？如果是，这可能是 CASI 或 ACASI 访问。如果没有访问员在场，例如，这可能是网络问卷。
访问员与受访者的接触程度：是面对面、间接的（通过电话或邮件媒介），还是与受访者没有接触？例如，在价格调查中，访问员可能在零售店收集价格数据，而不与受访者互动。那里不涉及自我报告，或者信息来源可能是记录而非自我报告。
沟通媒介或提问渠道：这可能与回答渠道不同。例如，在电话调查中，媒介是纯口头的（没有视觉信息）。在面对面访问或视频媒介访问中，媒介是口头和视觉的。面对面访问中的视觉信息不仅包括受访者看到的访问员，还包括访问员提供给受访者的印刷材料，例如所谓的“展示卡”，它可以列出问题所有的大量回答选项，以减少访问员读出这些选项时受访者的记忆负担。纯视觉调查则是邮寄调查，只有文本信息，没有口头或听觉信息。

数据收集方法或模式的两种路径 🛤️

关于数据收集方法或模式，实际上有两种路径：

选择模式：如果研究人员有幸能够这样做，那么问题就变成了：对于特定的研究问题，什么是最合适的模式或方法？通常存在一些限制，如资源、可用时间、抽样框（包含什么信息？有电话号码吗？有街道地址吗？）、主题（涉及敏感问题吗？是关于读写能力的吗？例如，如果可能存在读写能力问题，那么口头访问更有意义）。
优化既定模式：但很多时候，研究团队的成员会发现模式实际上已经被选定了（可能由于历史原因或其他原因）。那么任务就是最大化已选定模式的好处。因此，必须思考：给定特定模式，对调查误差和调查成本有何影响？可能出现哪些模式效应？我们如何克服它们？如何最大化特定模式的好处？

研究人员在选择模式时需要考虑的因素包括：

主题是什么：如前所述，读写能力调查可能不适合以需要读写能力的文本格式进行。
抽样框中包含什么信息：例如，如何在选举日调查选民，当你并没有一个列出特定地点所有选民的抽样框时？可能拦截研究或所谓的“出口民调”是合适的，即采访每第 N 位离开投票地点的选民。
资源、成本、及时性及其他优先级：有时决定真的关乎资源。例如，可能没有足够的资源支付访问员费用，访问员很昂贵，尤其是涉及差旅的面对面研究。在这种情况下，自填式是理想的，但哪种自填模式最好？有多种选择：纸质、网络等。

即使做出了这些广泛的选择，还有许多涉及特定问卷或特定研究的设计决策。因此，研究人员在选择或决定模式时需要考虑很多因素。

受访者模式选择 🤔

模式选择的另一种含义是让受访者选择或要求受访者决定他们提供数据（答案）的模式。受访者模式选择的利弊正逐渐为人所知。因此，本主题的第二部分将聚焦于受访者模式选择，我们接下来将转向这部分内容。

本节课总结：在本节课中，我们一起学习了调查模式的核心定义，即它是媒介与代理的组合。我们详细介绍了从传统（如面对面、电话、邮寄）到现代（如网络、移动、视频）的各种调查模式及其常见缩写。我们还探讨了研究人员选择模式时需考虑的关键因素（如主题、资源、抽样框），并简要提及了让受访者选择模式的理念，为下一部分内容做了铺垫。理解模式的多样性及其影响，是设计高质量调查的基础。

006：受访者模式选择 📊

在本节课中，我们将要学习调查数据收集中的一个重要概念：受访者的模式选择。我们将探讨在混合模式研究中，让受访者自行选择回答方式可能带来的影响，包括对回答率和数据质量的双重作用。

上一节我们介绍了调查模式的基本概念，本节中我们来看看当受访者被赋予选择权时会发生什么。

模式选择对回答率的影响

在混合模式研究中，有时让受访者自行选择提供答案的方式是合理的。但一个值得关注的问题是，给予他们这种选择可能会降低参与度。方法学家最初并未必然预见到这一点，但在多项提供或要求此类选择的研究中，观察到了这种现象。

梅德韦和富尔顿进行了一项很好的元分析，专门研究了一种特定类型的模式选择设计。在这种设计中，样本成员会收到邮寄的邀请函，其中包含纸质问卷。而随机一部分样本成员则被额外提供了一个网络回答的选项。

以下是该设计的关键点：

样本成员收到包含纸质问卷的邮寄邀请。
一个随机子集的样本成员被提供网络回答的选项（即模式选择）。
邀请函中会提供一个网址，并说明如果他们更倾向于在网上完成问卷，可以手动输入该网址。

梅德韦和富尔顿回顾了19项采用这种形式的研究。他们发现，在这19项研究中，总体而言，当样本成员被给予选择时，回答率可靠地低于仅提供邮寄问卷的条件。在19项研究中的17项里，回答率都较低，其中8项显著较低。

他们提出这可能由多种原因导致。以下是可能的解释：

选择悖论：社会心理学家巴里·施瓦茨提出的概念。其观点是，当决策者被给予选择时，特别是大量选择时，这实际上可能会使他们陷入瘫痪，更难做出决定，并对最终做出的决定感到不满。梅德韦和富尔顿认为，这可能是回答率下降的一个解释。
转换成本：从纸质问卷转换到计算设备并手动输入网址的行为，可能导致参与度下降。因为人们可能会分心，或者尝试输入网址时受挫，尽管初衷良好，但最终未能完成转换。
技术要求：转向网络回答有不同的技术要求。如果网络连接中断或存在可用性问题（例如，受访者使用计算机或在线应用的能力不如填写纸质问卷），这也会导致回答率降低。

因此，给予选择可能伴随着回答率降低的特定成本。

模式选择对数据质量的影响

尽管回答率可能下降，但让受访者选择回答方式实际上有可能提高他们答案的质量。

康拉德及其同事的一项研究测试了这个想法。他们的思路是，如果受访者选择了他们提供答案的方式，他们可能会更投入、更专注于任务。

在他们的研究中，样本成员被邀请通过智能手机（该研究中恰好是iPhone）以四种访谈模式之一参与。这四种模式是：

人工语音：访问员通过电话读出问题并记录答案。
自动语音：相当于之前讨论过的语音交互式语音应答系统。由录音播放问题，受访者说出答案，系统尽力识别并自动记录。
人工文本：人工访问员通过短信发送问题，受访者短信回复答案。
自动文本：计算机发送短信问题，受访者短信回复答案。

受访者被以这四种模式之一联系，然后其中一半被要求必须从这四种模式中选择一种。他们可以选择最初联系他们的模式，也可以选择其他任何一种。因此，可以在被要求做出选择的组和未被给予选择的组之间进行比较。

他们发现，被要求选择模式的组，其数据质量在几项指标上更高：

更少的取整数值答案：当问题需要数值答案时，回答“10”相对于“97”而言，通常被认为反映了更粗略的思考。“10”这个答案似乎是取整过程的结果，而不是对构成答案的因素进行更仔细的枚举。取整数值减少是质量提高的一个指标。
更少的直线回答：直线回答是指在多个使用相同回答量表或选项的问题中，选择相同答案的倾向。当受访者直线回答时，通常意味着他们没有如期望的那样深入思考问题，有时甚至是不加思考地选择一个固定答案。研究发现选择模式后直线回答减少。
更高的完成率：当受访者被给予选择时，中断率更低，即完成率更高。
更高的满意度：在访谈后的满意度评估中，选择自己模式的受访者满意度更高。在该研究中，受访者最常选择的模式是自动文本。

这表明，尽管模式选择似乎固有地伴随着回答率的降低（至少在当前已进行的研究中如此），但要求受访者选择其模式在数据质量或回答质量方面是有益的。

值得注意的是，在康拉德等人的这项专注于数据质量的研究中，被要求选择回答模式的组，其回答率也有所下降，这与涉及不同模式组合的富尔顿和梅德韦元分析结果一致。但回答率的下降集中在某些特定的模式转换上，特别是那些涉及从自动模式（自动文本或自动语音）的邀请转换到人工执行模式（人工文本、人工语音）的情况。这些方向的转换很可能导致延迟，因为人工访问员可能无法立即开始访谈（无论是语音还是文本），而这种延迟可能是回答率下降的原因。

无论如何，在单一设备上选择模式（如康拉德的研究），相对于收到带有网址的纸质邀请、要求受访者 physically 转换到计算机并手动输入网址，前者确实最大限度地降低了转换模式的成本。

模式偏好的影响

模式偏好与模式选择略有不同。模式偏好指的是受访者对参与特定模式的倾向性，但在模式偏好研究中，他们并未被给予选择。不过，就像模式选择一样，我们可以考察模式偏好对回答率和回答质量的影响。

奥尔森及其同事在一项电话调查中询问了受访者的模式偏好。即在电话调查中，他们问：“如果您收到参与另一项类似调查的请求，您通常更喜欢哪种调查模式？”选项包括：在您家中进行面对面访谈、家庭电话访谈、手机访谈、邮寄纸质调查或互联网调查。

大约一年后，他们邀请同一批受访者参与另一项调查，并随机将他们分配到邮寄或网络模式（实际上是邮寄-网络或网络-邮寄的顺序）。一些受访者恰好被分配到了他们一年前表示偏好的模式，而另一些则没有。

他们发现，如果数据收集发生在受访者偏好的模式中，回答率会更高（至少在部分模式中如此）。这表明，在受访者偏好的模式中进行访谈或数据收集，会增加他们参与的可能性。

关于模式偏好对回答质量的影响，史密斯等人进行了一项研究，考察了受访者表现出的“走捷径”或心理捷径的数量。该研究使用了奥尔森等人研究生成的数据集。受访者被分配到两种问卷形式之一，其中项目格式不同：

他们要么收到“勾选所有适用项”的题目（本质上是复选框，可以勾选任意多项）。
要么收到“强制选择”的题目（必须对列表中的每一项回答“是”或“否”）。
他们还收到一个开放性问题，需要用他们自己的话回答，但回答框要么很大，要么很小。其思路是，大的回答框暗示期望更长的答案，至少受访者似乎是这么理解的。

问题是：他们是否在走捷径？在“勾选所有适用项”的形式中，他们勾选的选项是否比在必须为每个选项提供答案的“强制选择”形式中更少？当回答框很大时，他们是否更不愿意提供开放式回答？这些都是“走捷径”的证据。问题是，模式偏好如何影响这种走捷径的倾向？

他们发现，如果受访者不是在偏好的模式中回答问题（即他们正在以之前表示并非首选的模式作答），那么与强制选择形式相比，他们在“勾选所有适用项”形式中认可的选项更少；并且，当开放式问题包含一个暗示期望更长答案的大框时，他们跳过该问题的次数比包含小框时更多。但是，当受访者在偏好的模式中回答时，格式对他们的答案没有影响。

因此，模式偏好似乎与模式选择类似，虽然可能降低回答率，但也提高了回答质量。

总结

本节课中我们一起学习了调查模式选择的相关知识。

总结我们关于模式及其含义的讨论，可以将模式视为媒介和代理的组合。经典模式（电话访谈、面对面访谈和邮寄纸质问卷）仍在继续使用，但同时许多新模式既在使用中，也即将出现。

研究者在为一个项目选择模式或围绕一个模式设计项目时，需要考虑许多因素，包括主题、抽样框、可用资源和测量目标。

让受访者进行模式选择可能会因转换成本而降低参与度，但可以提高测量质量。类似地，在不要求选择的情况下，让受访者以其偏好的模式作答，可能既增加参与度，也提高回答质量。

在下一节中，我们将更具体地讨论混合模式调查。存在几种不同的设计，每种都有其优缺点，我们接下来将转向这个话题。

007：混合模式设计

📘 概述

在本节中，我们将学习混合模式设计。这是一种将多种调查模式结合在单一研究中的方法。我们将介绍几种不同的混合模式设计，并详细探讨这些设计对调查误差的影响。

🎯 混合模式设计的目标

我们已经讨论过多种调查模式，其中一些被称为经典调查模式。如今，将多种模式结合到一项调查或研究中变得越来越普遍，这被称为混合模式设计。

混合模式设计的主要目标有三个：

优化成本与误差之间的权衡：平衡不同调查模式带来的成本和误差。
提高应答率：目标是减少无应答误差。虽然提高应答率不一定直接降低无应答误差，但两者通常相关，降低无应答率总是有益的。
降低调查成本：通过策略性地组合模式来控制总体开销。

然而，混合模式设计也带来一个主要担忧：模式效应。这指的是从同一总体样本但通过不同模式收集的数据中，得出不同估计值的现象。这无疑是一种误差来源，需要尽力最小化。

🔄 不同研究阶段的模式混合

不同的模式不仅可用于数据收集，还可用于研究不同阶段与样本成员的沟通。这些阶段通常包括：

预通知：提醒样本成员即将收到调查邀请。
招募：正式邀请他们参与调查。
提醒：在招募后发送提醒，促使他们决定是否参与。

因此，混合模式设计可以发生在这些沟通阶段与数据收集阶段之间。

预通知与数据收集的模式混合

预通知旨在提醒样本成员即将到来的调查邀请，而非邀请本身。例如：

一项电话访谈调查，其预通知和招募在某些地区采用面对面方式进行。
一项网络调查，通过邮寄方式进行预通知和招募（这是一种非常常见的组合）。

这种混合的目标是通过提高研究的显著性来增加应答率。如果预通知、招募与数据收集采用相同模式，则无需担心模式效应。

关于预通知模式与数据收集模式不同的一个研究示例如下：Bosnjak及其同事测试了三种预通知模式（短信、电子邮件、无预通知）和两种邀请模式（短信、电子邮件）对网络调查应答率的影响。

他们发现：

总体而言，短信预通知最有效。
随后的邀请通过电子邮件发送最有效。
短信预通知结合电子邮件邀请的组合总体效果最佳。

📊 数据收集阶段的混合模式设计

在数据收集阶段（而非预通知或招募阶段）混合模式，存在多种不同的设计。De Leeuw在2005年的一篇文章中对此进行了详细阐述。

以下是几种主要的混合模式设计类型：

1. 并行混合模式设计

在这种设计中，存在一个样本、一个时间点、一份问卷，但样本成员的数据通过不同模式收集。这种设计的一个关键方面是模式选择，即给予受访者选择数据收集方式的权利。

2. 序贯混合模式设计

这是更常见的设计。同样针对一个样本、一个时间点，但样本成员会按照有效性递增、成本也递增的模式顺序进行接触。如果前一种接触尝试不成功，则启用下一种模式。

例如：

首先尝试成本较低的邮寄问卷。
对无应答者，进行成本较高的电话访谈（假设抽样框同时包含地址和电话号码）。
对电话访谈仍无应答者，则采用成本最高的面对面访谈。

这种设计的理念是：在最小化费用的同时最大化应答率，仅对前序模式无应答的样本成员使用最昂贵的模式。

3. 问卷内模式切换设计

最著名的例子是面对面访谈中，访问员将电脑交给受访者，让其自行回答最敏感的问题（即使用计算机辅助自填访谈或音频计算机辅助自填访谈）。这样，在单次访谈或单份问卷中就使用了两种模式。

4. 纵向混合模式设计

针对一个样本，在多个时间点测量其行为态度。通常，初始数据收集采用一种模式（如面对面访谈，以建立信任和承诺），后续的跟踪调查则采用另一种模式（如电话访谈）。

5. 平行（独立）混合模式设计

指不同样本的数据通过不同模式收集，但最终整合到一项研究中的情况。跨国调查是这种方法的主要例子，在不同国家主要使用不同的调查模式是合理的，然后在分析中整合数据。

🏁 总结

本节课我们一起学习了混合模式设计。我们了解到，混合模式设计通过结合不同调查模式，旨在优化成本误差权衡、提高应答率并控制成本。我们介绍了模式在预通知、招募与数据收集等不同阶段的混合，并重点阐述了数据收集阶段的五种主要设计类型：并行、序贯、问卷内切换、纵向和平行设计。理解这些设计有助于我们根据具体研究目标和约束，选择最合适的调查策略。在下一节中，我们将更详细地探讨第一种数据收集混合模式——并行混合模式数据收集。

008：并行混合模式设计 📊

在本节课中，我们将深入学习混合模式调查设计中的一种具体类型——并行混合模式。我们将探讨其基本概念、潜在优势与挑战，并分析模式偏好与模式选择对调查结果的影响。

并行混合模式设计概述

上一节我们介绍了混合模式设计的整体概念，本节中我们来看看其中一种具体设计：并行混合模式。

并行混合模式的核心思想是：在同一个样本中，不同的子群体通过不同的数据收集模式接受访问或提供数据。

例如，调查者可能对有互联网接入的受访者使用网络调查模式，而对没有互联网接入的受访者使用邮寄问卷模式。

这种设计的主要公式化目标是：
总样本 = Σ (子群体₁ × 模式₁) + Σ (子群体₂ × 模式₂) + ...

其潜在优势在于，它有助于减少覆盖误差（某些群体被排除在调查之外）和无回答误差。然而，其缺点是可能存在模式效应，即不同模式本身可能影响测量结果。这些模式效应与子群体差异混杂在一起，使得研究者难以判断观察到的差异是源于子群体间的真实差异，还是数据收集模式本身造成的。

模式偏好的作用与测量

在并行混合模式设计中，模式偏好是一个重要概念。调查者可能希望按照受访者偏好的模式来收集数据，以期提高参与度和数据质量。

但实际测量模式偏好存在一定难度，因为受访者倾向于表示偏好正在询问其偏好的那个模式。

以下是一个来自De Leeuw研究的示例数据表，说明了这种“询问模式效应”：

当通过邮寄方式询问模式偏好时，受访者更倾向于报告偏好邮寄访谈。
当通过面对面方式询问时，受访者更倾向于报告偏好面对面访谈。
当通过电话方式询问时，受访者更倾向于报告偏好电话访谈。

尽管如此，模式偏好似乎确实对参与度有影响。Olson及其同事的研究发现，当受访者在后续调查中被分配到的模式与其之前表达的模式偏好一致时，响应率会更高。例如，偏好网络调查的受访者，在被邀请进行网络调查时，其参与率显著高于未被询问偏好的对照组。

模式选择的影响

模式偏好不等同于模式选择。模式选择是更强的一种形式，它要求受访者主动选择其希望使用的数据收集模式，而不仅仅是表达偏好。

一项由Medway和Fulton进行的重要元分析发现，在许多研究中，给予受访者在邮寄问卷和网络调查之间选择的权利，反而降低了总体响应率。在分析的19项研究中，有8项显示提供选择会可靠地降低响应率，另有9项也呈现相同趋势。

他们对此现象的解释是：

增加复杂性：选择本身增加了决策的复杂性，可能使两个选项都显得不那么有吸引力。
中断响应过程：如果受访者决定切换模式（例如，从打算填写纸质问卷改为上网填写），这个转换过程可能造成中断，导致他们最终未能完成调查。
引入技术障碍：推动受访者使用网络模式可能让他们遇到连接性或可用性问题，而这些问题在单一的纸质模式下不会出现。

然而，这并不意味着模式选择没有好处。Conrad等人的研究指出，模式选择（尤其是当选择易于实施且能选择方便的模式时）可以改善测量表现。

在他们的实验中，受访者被要求从四种智能手机访问模式（人工语音、人工短信、自动语音、自动短信）中选择一种。结果发现：

减少测量误差：选择模式的受访者表现出更少的“取整”回答（如回答100而非97）和“直线”回答（对所有问题选择相同选项），这两种行为常被视为敷衍作答的指标。
- 敷衍作答代码示例（概念性）：if (all_answers == identical) { flag_satisficing = TRUE; }
降低中断率：减少了调查中途放弃的情况。
提高满意度：与被动分配模式的受访者相比，主动选择模式的受访者满意度更高。

总结

本节课中我们一起学习了并行混合模式设计。我们了解到，这种设计通过为不同子群体分配不同模式，旨在优化覆盖范围和减少无回答。然而，它也带来了模式效应与群体差异相混淆的挑战。我们深入探讨了模式偏好的测量难题及其对参与度的影响，并分析了模式选择这把双刃剑——它可能降低响应率，但也可能通过赋予受访者自主权来提升数据质量和满意度。

下一节，我们将探讨另一种更常见的混合模式设计：序贯混合模式。

009：方法、社调问卷设计、抽样、缺失数据、分析：p09 8_1.4.3 序贯追踪混合模式 📞➡️📧

在本节课程中，我们将详细探讨序贯追踪混合模式设计。这种设计旨在通过结合多种数据收集模式来提高调查的响应率，并可能降低调查成本。我们将通过具体的研究案例来理解其运作方式、效果以及潜在的挑战。

序贯追踪混合模式设计，也称为混合模式追踪，其核心目标是减少无应答。具体做法是，先用一种模式邀请受访者参与调查，然后对未回应者使用另一种模式进行追踪提醒。这种设计背后的理念是，通过模式的切换，可以强化受访者对研究重要性的感知。

以下是序贯追踪混合模式设计的两个主要目标：

提高响应率：通过使用一种模式作为另一种模式的提醒，促使更多受访者参与。
控制追踪成本：首先使用成本最低的模式进行初次接触，然后对无应答者依次使用成本更高的模式。这样，最昂贵的模式仅用于最难接触到的样本成员。

然而，这种设计也存在一个明显的缺点：模式效应风险。由于受访者在不同阶段接触了不同模式，很难将模式本身对回答的影响与受访者真实的态度变化区分开来。

为了更直观地理解序贯追踪混合模式的效果，我们来看一个由Dillman等人进行的研究。该研究比较了不同初次邀请模式（邮件、电话、交互式语音应答、网络）与后续追踪模式（电话或邮件）的组合效果。

研究结果显示，对于初次邀请未回应者，使用另一种模式进行追踪，普遍提高了总体响应率。例如：

初次邮件邀请的响应率约为75%，对未回应者进行电话追踪后，响应率提升至略高于80%。
初次电话邀请的响应率约为45%，对未回应者进行邮件追踪后，响应率也提升至约80%。

一个值得注意的发现是，邮件邀请的初始响应率高于电话。研究者将此归因于激励方式的不同：邮件中包含了预先支付的2美元现金激励，而电话访谈承诺的是完成后支付，后者对受访者的吸引力较弱。

尽管序贯追踪提高了响应率，但研究者也指出了几个关键问题：

未能解决人口统计偏差：不同模式下不回应的人群特征相似，因此无应答误差并未减少。
引入了模式效应：在电话和交互式语音应答等“听觉模式”中，受访者在两极量表上倾向于给出更积极的回答，这与“视觉模式”（邮件、网络）下的回答存在差异。

因此，序贯追踪混合模式的主要结果是：响应率提高，但无应答偏差可能并未减少，同时还引入了模式效应。

另一个相关研究由Millar和Dillman进行，他们试图将网络调查的响应率提升至与邮件调查相当的水平。他们比较了多种设计，发现：

提供“邮件或网络”的选择并未提高响应率，甚至可能降低了响应率。
但是，如果先邀请受访者参与网络调查，然后对未回应者发送包含网络调查链接的电子邮件进行追踪，最终网络调查的响应率可以与邮件调查的响应率相当。

这个案例展示了如何通过“网络邀请 + 邮件追踪”的序贯混合模式，有效提高特定模式（此处为网络）的响应率。

激励措施在混合模式设计中扮演着重要角色。Bieber等人的一项研究调查了激励对医疗补助（Medicaid）受助人样本的影响：

在初次邮件问卷中，附有2美元现金激励的小组响应率为54%，无激励的小组为45%。
随后，他们对少数族裔无应答者进行电话追踪。结果显示，初始激励的效果在追踪阶段被削弱了。对于初始收到激励的小组，追踪后响应率从54%升至69%（提升15%）；对于初始未收到激励的小组，响应率从45%升至64%（提升19%）。电话追踪带来的响应率提升，在一定程度上抵消了提供激励的成本。

除了序贯追踪设计，还有其他几种混合模式设计值得简要了解：

问卷内模式切换：在同一时间点对同一样本，针对问卷的不同部分使用不同模式。最佳例子是面对面访谈中，访问员将计算设备交给受访者，让其通过屏幕或耳机自行回答敏感问题（即音频计算机辅助自访）。
纵向混合模式调查：对同一样本在多个时间点进行测量，但在不同时间点使用不同模式。例如，在纵向研究中，初期使用成本高的面对面访谈建立联系，后续波次则转为成本较低的电话访谈。这能降低成本，但会混淆时间效应和模式效应。美国收入动态追踪研究（PSID）和当前人口调查（CPS）都采用了此类设计。
平行样本不同模式：主要用于跨国或跨地区比较研究，以适应不同地区的调查传统、实际限制、覆盖率或识字率差异。例如，在互联网普及率差异大的国家，可能分别采用网络和面对面模式。国际社会调查项目（ISSP）、欧洲社会调查（ESS）等都采用了此类设计。但同样，难以区分地区差异是源于模式效应还是真实的人口差异。

本节课中，我们一起学习了序贯追踪混合模式设计。我们了解到，这种设计通过模式切换来提醒和追踪受访者，能有效提高调查响应率并优化成本控制。然而，它也带来了模式效应风险，并且可能无法减少无应答偏差。我们还简要了解了问卷内切换、纵向调查和平行样本等其他混合模式设计及其应用场景。

在下一节中，我们将转向无应答与无应答误差的专题讨论，这是我们多次提及的一个重要调查误差来源，更深入的了解将为我们后续课程的学习奠定基础。

010：方法、社调问卷设计、抽样、缺失数据、分析

课程概述

在本节课中，我们将学习混合模式数据收集的设计与应用。通过密歇根大学健康与退休研究（HRS）的案例，我们将探讨如何结合多种数据收集方式，以及在此过程中面临的挑战与应对策略。

章节 9：混合模式设计

9_1.4.4 密歇根大学David Weir教授访谈：混合模式设计 👨‍🏫

欢迎密歇根大学社会研究所的研究教授、健康与退休研究（HRS）主任David Weir博士。

HRS是一项纵向面板研究，旨在探索50岁以上美国人在职业生涯末期及之后年份中，劳动力参与度和健康状况的转变。

HRS采用混合数据收集模式。除了通过调查问题收集的自我报告数据外，该研究还率先将行政数据、生物及生理测量数据整合到其产出的数据中。

可以说，HRS及其数据是各类研究者的宝贵资源，能够用于解答广泛的问题。感谢David今天与我们分享时间。

HRS一直采用电话访谈和面对面访谈相结合的方式。近年来，还增加了书面自填问卷和在线网络数据收集方法。

HRS在多大程度上使用不同的数据收集方法来询问相同的问题？即，HRS数据在多大程度上基于混合模式数据收集？

HRS的核心访谈每两年进行一次，一直采用电话和面对面访谈的混合模式。这些访谈非常长，包含大量跳转逻辑，以引导访谈流程。它们利用前一轮收集的信息，帮助参与者完成问卷的相关部分。因此，这是使用访员和计算机辅助系统来引导访谈的结合。

邮件书面问卷和网络的使用目前主要用于特殊主题。我们在这些模式上收集不同的内容。因此，从两种访员主导的模式来看，我们是混合模式；而从通过其他模式引入额外内容的角度看，你可以称之为多模式。

混合模式数据收集带来的问题之一，也是HRS可能遇到的问题，是数据的可比性。HRS是否有促进数据可比性的策略？

当然有。研究开始时，就知道会混合使用面对面和电话模式。因此非常关注这两种模式的可比性。首要考虑的是如何选择要问的问题。有些问题对模式更敏感。幸运的是，我们关注的大多数内容更客观，因此受模式效应的影响比其他类型的调查要小。例如，我们尝试评估人们的认知能力，这对了解老龄化非常重要。有些测试认知能力的问题在电话上效果很好，有些则不行。我们只能限制自己使用在两种模式中都有效的问题，然后通过一些测试来验证我们确实在面对面和电话模式中获得了可比的答案。

一个问题在特定模式下“效果好”或“效果不好”意味着什么？

以认知测试为例，如果你需要向某人展示某物，这在电话上无法完成。所以对我来说，这不仅仅是效果好不好的问题。人们担心的另一件事是，如果受访者不被访员观察，他们是否会以某种方式作弊，比如写下一些东西以备后用或参考某些信息。我们不介意他们查阅信息，比如银行存折来告诉我们支票账户里有多少钱，但我们不希望他们在测试中试图作弊。

HRS显然在混合模式和多模式上进行了投入。HRS从这项投资中获得了一些什么好处？

我们正处于探索如何使用网络的阶段，因此对未来从网络中获得很多成果抱有期待。在电话和面对面之间，HRS获得的主要好处是成本效益。研究开始时，标准做法是只进行面对面访谈。在我们最初的提案中，提出在纵向研究中大量使用电话访谈是有些革命性的，但这非常具有成本效益，因此坚持使用电话是主要原因。

当我们重新增加更多面对面访谈时，主要是为了能够完成电话上无法完成的内容。例如，我们测量人们的血压，采集指尖血样。这些事情无法在电话上完成。同样，对于网络，我们主要关注如何利用网络来做其他模式无法做到的事情。我们将其视为一种替代方案，因为如果人们愿意做，它甚至比电话更便宜。但我们谈论的访谈，在有访员的情况下可能需要两个小时，而让人们在没有任何提示和帮助的情况下在网络上完成，这是一个挑战。

刚才询问了好处，那么你们经历了哪些成本？我特别考虑的不是货币成本，而是误差方面的成本，尤其是模式效应。

我认为成本之一是为了避免模式效应而缩小内容范围。就像我说的，某些认知测试无法在电话上进行，所以我们就不做那些。

关于纯粹的“模式效应”，即如果你在两种不同模式下问完全相同的问题，得到了不同的答案。我们在访员主导模式和自填模式之间，对于涉及社会期望因素的敏感问题看到了这种效应。当我们问某人“去年你工作了多少小时”或“你上次住院是什么时候”时，我们没有看到特别大的模式差异。当我们问“你认为你的孩子有多理解你”时，结果差异就大一些。通常，当你看到模式效应时，它并不是中性的。也就是说，你倾向于相信其中一个答案比另一个更准确。对于这些敏感问题，通常自填模式被视为更准确。其成本在于，如果是自填模式，人们不一定能完成访谈，甚至一开始就不回应。访员确实能帮助人们完成调查。

那么，网络和邮件问卷的完成率是否都较低？

是的。我们是一项纵向研究，人们参与研究多年，他们是很好的参与者。幸运的是，在我们做的大多数事情中，我们都获得了相当好的回应率。但显然，邮件调查的回应率有所下降，这在一定程度上与教育水平有关。识字能力稍弱的人做邮件调查的可能性较小。对于网络，当然，在老年人口中，许多老年人根本不使用网络，所以你根本无法接触到他们。

这实际上引出了我的下一个问题。HRS的参与者是50岁及以上的人群。我想知道，你是否能同样有效地对所有人群使用所有模式？

显然不能。你无法以任何全面的方式使用网络。50岁以上人群的互联网使用率急剧下降。即使对于50多岁的人，受过大学教育的人和未完成高中学业的人之间的差异也非常显著。因此，年龄和社会经济差异使得基于网络的人群与其他人群非常不同。所以，你可以将其用于某些事情。正如我们现在考虑将网络作为核心访谈的第三种选择，我们显然只预期样本中的一个子集能够做到这一点。

如果走这条路，你将如何联系网络受访者与其他受访者？你会用他们提供数据的相同模式联系他们，还是用更传统的邮寄邀请方式？

我们已经进行了一些时长为30到45分钟的网络调查，内容大多不同。我们特意复制了一些核心的HRS内容，以便进行模式效应测试。在这些情况下，我们总是先给人们寄一封预告信。无论期望的访谈模式是什么，这已成为我们的标准方法。我们提前寄一封信，信中通常包含一张支票以鼓励他们回应。我们发现，在纵向研究的背景下，这是一种受欢迎的方法，往往有效。

当谈到网络时，有大量证据表明，如果你给人们发送电子邮件链接，这样他们就不必输入网址或去找它，这可以提高一些回应率。我们肯定会朝这个方向努力。我们已经开始向人们索要电子邮件地址，尽管这些地址可能变化很快，所以我们需要不断更新。

我想回到你关于收集血液和其他生物测量的评论，以及这如何影响模式。正如你所说，这无法通过电话完成。但如果受访者通常通过电话接受访谈，你们是否会先收集生物样本，然后在另一个场合通过电话完成访谈？还是全部一次性完成？

当我们决定增加这些内容时，我们将样本随机分成两半。从2006年开始，一半的样本开始接受包含所有这些组件的面对面访谈。然后在2008年，我们转向另一半样本。这样，第一组接受电话访谈，第二组接受面对面访谈。现在他们只是交替进行。因此，样本的每一半每四年接受一次面对面访谈，每四年接受一次电话访谈。

当然，人们会做他们想做的事。这是我们接触他们的方式，也是我们希望他们做的。但有时人们会说“我不会让你来我家，我不想那样做”，如果必须的话，我们会转而进行电话访谈，这样我们就无法获得额外内容。相反，有些人很难通过电话联系到，派人上门有时会更成功。所以，我们会做任何需要的事情来完成访谈。只要我们认为它是成功的，我们就会尽量采用期望的模式。核心问题的回答是你们的主要数据来源。

生物测量非常有趣且有价值，所以我们总是尽力获取。但保持人们在面板中，不因要求这些测量而吓跑他们，这一点非常重要。

在像HRS这样复杂的混合模式研究中，有非常多的数据用户。你们是否向用户传达响应或更广泛的数据是在何种模式下收集的？

当然。如果数据中有某人的血压读数，很明显我们知道是面对面进行的。当我们随机分配两半样本时，编码该变量的信息存储在所谓的“追踪文件”中。这是一个你可以去了解每个受访者随时间变化情况的地方，包括他们做了哪些访谈、没做哪些、他们处于何种模式等等。此外，在访谈期间，我们也会记录他们所处的模式。所以如果有人中途退出，我们知道。某人可能开始时是面对面访谈，然后因某种原因不得不停止。如果我们必须通过电话完成，我们会这样做，但你会知道变化发生在哪里。

最后，我想知道你们如何在访谈之间与HRS参与者保持联系，以及你们使用何种模式进行这种联系。

再次强调，主要是邮件。我们通常在两年的访谈之间发送一次通讯。几乎所有的受访者通常会在常规访谈之间的某个时间点收到一份邮件调查。在某些情况下，他们也会被邀请进行网络调查。

我们通常不使用电子邮件作为沟通形式。我们正在试验。我们本月刚刚开始2016年的数据收集，首次为访员配备了智能手机，允许他们与受访者发送短信。我们正在招募一批新的50岁出头的参与者，我们预计这个群体可能比语音邮件或其他方式更容易通过短信联系到。我们将看看效果如何。

这真的很有趣。非常感谢你与我们交谈，这非常有启发性，并且与我们课堂上关于混合模式调查的更广泛讨论非常契合。谢谢你的关注。

课程总结

本节课中，我们一起学习了混合模式数据收集的设计与实践。通过HRS的案例，我们了解到混合模式可以结合电话、面对面、邮件和网络等多种方式，以平衡成本、数据质量和覆盖范围。核心挑战在于确保不同模式间数据的可比性，并针对特定人群（如老年人）选择合适的数据收集方法。关键策略包括：选择对模式不敏感的问题、进行模式效应测试、灵活调整模式以完成核心数据收集，以及向数据用户明确传达数据收集模式。

011：应答率 📊

在本节课中，我们将学习调查数据收集中的一个核心概念——应答率。这是评估调查质量的重要起点，但我们需要理解它具体衡量什么，以及如何计算。

课程概述

在第一课的最后一个主题中，我们将介绍非应答问题。这包括应答率（或其反面——无应答率）以及无应答误差。需要明确的是，这两者并非完全等同的概念。

应答率与调查模式

上一节我们介绍了调查的不同模式。本节中我们来看看不同模式下的应答率差异。

关键点在于，应答率因调查模式而异。通常，面对面访谈的应答率最高，其次是电话访谈，再次是邮寄纸质问卷，而网络调查的应答率通常最低。但这并非绝对规律，许多因素可以改变这一模式。例如，我们之前看到，在不同模式下提供预付激励或承诺激励可以颠覆这种模式。然而，这通常是实践和文献中观察到的普遍模式。

需要记住的关键点是：应答率不等于无应答误差。在下一节中，我们将更详细地讨论这一区别。现在，我们只讨论应答率。

理解调查数据文件

为了理解应答率，我们可以想象一个调查数据文件。在这个文件中：

行对应个案或个体受访者。
左侧区域包含所谓的 框数据，即从抽样框中已知的受访者信息。
右侧标记为“访谈数据”的区域包含受访者的答案。

请注意，在访谈数据中存在一些空白或黑框，表示数据缺失。这被称为 项目无应答数据。即使受访者没有回答每一个问题，只要提供了部分数据，通常仍被视为应答者。

然而，我们还会看到一些行（个案）完全没有数据。这些就是 无应答者。当我们谈论“无应答”时，除非特别指明是“项目无应答”，否则通常指的就是这些完全没有提供任何数据的个案。这也被称为 单元无应答，即样本单元（如家庭、个人）未提供任何数据。

应答率作为质量指标

应答率无疑是特定调查中最知名的统计量之一，通常被视为调查质量的衡量标准。但如今，应答率本身不再被视为决定性的质量指标。不过，它确实是估计无应答误差的起点，我们将在下一节深入讨论。

目前，重要的是要注意，计算应答率有多种不同的方法。

AAPOR标准应答率

美国民意研究协会定义了一系列标准应答率，相关文件可在其官网找到。以下是计算前需要了解的一些个案处置结果（即调查结果分类）：

I：完成访谈
P：部分访谈
R：拒访与中断
- 拒访：样本成员被联系后拒绝参与。
- 中断：样本成员同意参与并开始了访谈，但在某个点之后终止，后续没有数据。
NC：未能联系。样本成员通过可用模式无法联系到。
O：其他。
UH：未知，住户是否有人居住未知。
UO：未知，其他。

其中最广泛使用的两个AAPOR应答率是 AAPOR应答率1 和 AAPOR应答率2。

以下是它们的定义：

AAPOR应答率1 (RR1)

公式：
RR1 = I / (I + P) + (R + NC + O) + (UH + UO)

这个公式用完成的访谈数 I 作为分子，分母则大得多，包括：完成的访谈、部分访谈、所有非访谈个案（拒访/中断、未能联系、其他），以及所有未知合格性的个案。

AAPOR应答率2 (RR2)

公式：
RR2 = (I + P) / (I + P) + (R + NC + O) + (UH + UO)

应答率2与应答率1相似，但它在分子中包含了部分访谈 P。这意味着部分访谈被视同完成访谈一样对待。因此，应答率2通常大于应答率1，因为其对“应答”的定义更宽泛，既包括完成的访谈，也包括已开始但未必要完成的访谈。

总结

本节课中我们一起学习了调查中的应答率。我们了解到：

应答率因调查模式不同而有差异。
应答率衡量的是提供数据的样本单元比例，是评估调查质量的起点。
需要区分“单元无应答”（完全没有数据）和“项目无应答”（部分问题无答案）。
AAPOR定义了标准化的应答率计算公式，最常用的是RR1和RR2，其中RR2因将部分访谈计入分子，通常数值更高。

在下一节中，我们将聚焦于应答率（或无应答率）与无应答误差之间的关键区别。

012：无应答误差 📊

在本节中，我们将结束关于无应答的讨论，重点聚焦于无应答误差，并将其与应答率或其补数——无应答率——区分开来。

无应答误差的构成

上一节我们介绍了无应答的概念，本节中我们来看看如何量化无应答带来的误差。无应答误差可以这样理解：如果我们有一个仅基于应答者（即同意参与调查的样本成员）计算的样本均值，它可以被视为整个样本（包括应答者和无应答者）均值的函数，再加上无应答误差。

具体而言，无应答误差包含两个部分：

无应答率：即无应答者数量 M 除以总样本量 n。
应答者与无应答者之间的均值差异。

这可以用以下公式表示：

样本应答者均值 = 整体样本均值 + (M/n) × (应答者均值 - 无应答者均值)

这个公式揭示了无应答误差的本质。它表明，误差的大小不仅取决于两组人答案的差异，还取决于无应答者的比例。

误差的两个驱动因素

以下是理解无应答误差的两个关键点：

差异大但无应答率低：如果应答者和无应答者的答案存在巨大差异，但只要无应答率（M/n）很低，这个巨大差异对我们的估计造成的危害就相对较小。
差异小但无应答率高：反之，如果两组人的答案差异很小，但无应答率很高（即 M 很大），那么这个微小的差异会被放大，从而对估计造成显著危害。

正因如此，调查研究者致力于尽可能提高应答率，因为这能降低无应答误差的风险。但必须明确，高应答率并不等同于低无应答误差，它们是相关但不同的概念。

无应答误差与应答率的区别

需要特别注意，无应答误差和应答率的计算层面不同：

无应答误差是在单个问题的层面上计算的。对于不同的问题，无应答误差可能差异很大。
应答率/无应答率是在调查单元（如家庭、组织、一次完整的访谈）层面上计算的，正如美国民意研究协会标准公式所示。

因此，我们在讨论时，是在结合不同分析层面的指标。

应答率与误差的非必然关联

正如前文所述，应答率和无应答误差（或称无应答偏差）并非必然相关。这一认识在21世纪初的一系列研究中得到强化。

例如，罗伯特·格罗夫斯的研究表明，无应答率与他所称的“绝对相对偏差”（一种无应答误差的度量）之间，并不存在系统性的关联。观察其研究图表可以发现：

有些案例中，无应答率低（应答率高），误差也低，这符合传统预期。
但同样存在无应答率低、误差却高的案例。
反之，也存在无应答率高、误差却低的案例。

这项研究以及其他在2000年至2010年间进行的研究，彻底改变了调查研究者对应答率的看法。虽然100%的应答率能完全消除无应答误差，但通常情况下，两者可以相当独立。因此，仅考虑应答率不足以全面评估调查估计值的质量。

何时会产生偏差？

那么，无应答何时会产生偏差，何时又不会呢？关键在于无应答行为是否与调查主题相关。

如果被联系或同意参与调查的可能性，与问卷所涉及的主题相关，则很可能产生无应答偏差。
如果两者不相关，则可能不会产生显著偏差。

例如，凯瑟琳·亚伯拉罕及其同事的研究发现，关于志愿服务的估计值存在偏差，因为更愿意参与调查的样本成员，本身在调查之外也更可能从事志愿服务。这里，被测量的内容（志愿服务）与参与调查的决定过程直接相关，从而导致了偏差。

调查方式的影响与一个实例

选择调查方式时，需要考虑其对应答率和潜在无应答偏差的影响。通常：

面对面访谈能获得最高的应答率，因为当面拒绝访员在社交上更为困难。
电话调查较容易被挂断。
纸质问卷则最容易因被搁置而无法完成。

然而，正如格罗夫斯等人的研究指出的，低应答率并不保证高误差，但低应答率确实会增加估计值受无应答误差影响的脆弱性。

以下是一个可能与调查方式相关的无应答偏差实例：历史上，美国一些选举前的民意调查曾多次高估黑人候选人的得票率。

皮尤研究中心在1997年的一项研究探讨了这种偏差。他们比较了电话调查中两类白人受访者的种族态度：

初始应答者：未经过特别努力就同意参与的人。
转化应答者：最初拒绝，但经过多次跟进电话后被说服参与的人。

研究发现，这两组人的种族态度存在根本差异：

对黑人持有“非常积极”看法的人，在初始应答者中占24%，在转化应答者中仅占15%。
认为黑人因种族歧视而难以取得进步的人，在初始应答者中比例更高。
支持就奴隶制进行全国道歉的人，在初始应答者中占39%，在转化应答者中占28%。

这个发现说明：

偏差来源：那些最初拒绝电话访问的人，可能持有更明显的种族主义观点。将他们排除在调查之外（即视作无应答者），导致了选举民调的偏差。
方式的影响：如果采用应答率更高的方式（如面对面访谈），可能会纳入更多初始拒绝者，从而减少这种无应答偏差。
其他对策：额外的金钱激励、更积极的跟进转化努力，也能帮助将这些群体纳入已完成案例中。

请注意：这种现象不同于所谓的“布拉德利效应”。布拉德利效应被认为是测量误差，即白人受访者出于社会期望，向访员谎称会投票给黑人候选人，但实际投票时却投给了白人候选人。而我们讨论的实例是无应答者与应答者持有不同态度导致的无应答偏差，两者有本质区别。

本节总结

本节课中，我们一起学习了无应答的核心概念——无应答误差。

我们明确了无应答误差由无应答率和组间差异共同决定，并将其与应答率这一相关但不同的概念区分开来。
我们了解到，高应答率不一定意味着低误差，评估调查质量需更全面的视角。
通过实例，我们看到了无应答偏差如何产生，以及调查方式选择如何影响它。

这结束了我们关于无应答及其误差的讨论，也完成了本课程的引言部分。在下一课中，我们将更详细地探讨网络调查和自动化自填式调查这些在本引言中未深入讨论的现代调查方式。

013：方法、社调问卷设计、抽样、缺失数据、分析：2.1.1 调查模式：访员与自填式CASI-ACASI 📊

欢迎回来，这是我们四节课中的第二课，专注于自动化自填式调查，包括网络或在线数据收集。在本节课中，我们将首先讨论作为访谈一部分的自动化自填式模式，即由人类访员询问非敏感问题，然后将笔记本电脑或其他计算机交给受访者，让他们自行填写并直接输入对敏感问题的答案。课程剩余部分将专注于网络问卷，即在线数据收集。这部分内容主要分为两个部分：一是网络调查的误差特性，如覆盖误差、无应答误差和测量误差的影响；二是我们将审视常用的不同抽样程序，以及这些程序如何影响网络调查中的各类误差。最后，在课程的结尾部分，我们将深入探讨测量误差，并关注网络调查的一个特定特性——交互性。这种特性在其他类型的自填式调查（特别是纸质自填式调查）中并不具备。我们将探讨网络调查的交互功能如何能够提升（或未能提升）在该模式下收集的数据质量。

现在，我们将转向CASI和ACASI，看看它们如何帮助提高对敏感信息的披露率。

常用调查模式回顾 🔄

首先，作为提醒，最常用的调查模式确实是自填式邮寄纸质问卷、网络调查、电话访谈以及涉及人类访员的面对面访谈。当然，也存在用于敏感问题的混合模式，这正是我们现在要关注的重点。在这种模式下，访员负责询问非敏感问题，而受访者则自行填写敏感问题。此外，移动网络调查的使用也日益增多。

再次提醒，当我们说CASI时，指的是计算机辅助自填式访谈。而ACASI指的是音频计算机辅助自填式访谈。

CASI如何影响敏感问题回答 📈

首先，我们来看计算机辅助自填式访谈及其如何影响受访者对敏感问题的回答。评估CASI时，最初或主要的比较对象是自填式（即使用CASI）下的答案与访员询问问题时的答案（例如，电话或面对面访谈）之间的差异。

多项研究表明，与访员提问相比，在CASI模式下，受访者似乎更愿意披露敏感信息。早期的论证之一来自Tourangeau和Smith。他们观察到，在CASI模式下，对敏感信息的披露更多。这里的“披露”指的是更多报告社会不期望发生的行为。

与访员提问相比，CASI能带来更多披露。我们稍后会再与其他类型的自填式模式进行比较。Tourangeau和Smith的研究显示，在询问过去一年、五年和一生中的性伴侣数量时，通常CASI（浅蓝色柱）的报告数量高于电话访谈（深蓝色柱）。在一生这个时间跨度上，电话访谈和CASI之间几乎没有差异。有人提出，关于一生的问题敏感性较低，或者人们可以更坦然地回答。这里的假设是，至少对女性而言，拥有多个性伴侣是不被期望的，因此较少的性伴侣数量更符合社会期望。但似乎在一生的时间跨度上，调查模式的影响不大，这可能是因为问题本身敏感性降低了。然而，对于过去一年和过去五年这两个时间段，CASI在披露不期望行为方面具有明显优势，即比电话访谈（访员管理）报告了更多的不期望行为。

Tourangeau和Smith还证明，特别是音频CASI，相对于访员管理的电话访谈，增加了对在不同时间段内使用非法药物的报告。

这张表格包含了在过去一个月、过去一年和一生中，可卡因和大麻使用报告流行率的比率。这些比率是ACASI下的报告与访员管理下的报告之比。关键在于，如果比率大于1，则意味着在ACASI下的报告多于访员提问时，这被解释为披露更多。可以看到，所有这些比率都大于1，有些甚至远大于1。这表明，特别是在过去一年里，当受访者自行填写问题并直接输入答案时，他们更愿意、也能够更多地披露大麻使用情况，尤其是可卡因使用情况。

回到性伴侣领域，针对异性性伴侣，Tourangeau和Smith的研究表明，男性和女性在自填式（无论是音频CASI还是文本CASI或传统CASI）下，似乎都比访员提问时更坦率，提供了更多不符合社会期望的答案，但方向相反。他们的建议（其他人也提出过）是，对男性而言不期望的行为与对女性而言不期望的行为是不同的。因此，在电话访谈下，男性倾向于高报异性性伴侣的数量，而女性在访员提问时则倾向于低报异性性伴侣的数量。当然，从统计意义上说，这不可能同时成立，因为从某种程度上说，他们是彼此的伴侣（如果你认同样本能代表总体的话）。可以看到，音频CASI和文本CASI缩小了男性和女性报告数量之间的差距。它并没有消除差距，但确实缩小了差距，这表明即使是不同类型的社会期望偏差，在自填式条件下也会减少。

显然，在这些例子中，自填式相比访员管理，增加了披露。

自动化自填式 vs. 纸质自填式 📄

人们可能还会问，计算机化、自动化的自填式是否比纸质自填式更有效、能带来更多披露？以及CASI和音频CASI在披露率上是否有任何差异？

实际上，有证据表明，在自动化模式下，对敏感信息的披露多于纸质模式。像之前描述的纸质自填式问卷，确实比访谈增加了对不期望行为的报告。但是，在Gnambs和Kaspar的一项元分析中，比较了计算机化自填式与纸质自填式，发现自动化自填式比纸质自填式能更可靠地报告更多敏感信息，而且对于最敏感的项目，这种效应更大。

因此，自动化似乎有某种特性，相对于单纯的自填式，能增加隐私感。

ACASI的优势与局限 🎧

现在，谈到ACASI。当它被引入时，其支持者认为，通过让受访者听到问题而不是在屏幕上看到问题，相对于在屏幕上显示问题的CASI，给受访者带来的隐私感增加了。

但是，Cooper及其同事在为数不多的直接比较CASI和ACASI的研究中发现，ACASI并没有优势。这部分归因于在音频CASI中，受访者实际上并没有使用耳机，他们只是从屏幕上阅读问题。在这个实施中，问题既以文本形式呈现在屏幕上，也通过耳机播放。但他们发现，即使受访者使用了耳机并以听觉方式接收问题，ACASI也没有比CASI更具优势。

这并不是说这些模式在增加披露方面不如访员管理的问题有效，但至少在Cooper及其同事的研究中，它们彼此之间没有差异。

关于ACASI，有一点是肯定的，即使它没有增加披露，但与CASI或纸质自填式问卷相比，它降低了低识字率的影响，因为阅读能力不高的受访者能够听到问题，从而消除了这方面的顾虑。

Charles Turner等人早期进行的一项比较音频CASI与纸质问卷的研究发现，在一些相当敏感的同性性行为披露方面，音频CASI具有很大优势。这再次表明，自动化相比自填式本身具有一些额外优势。

当我们回来时，我们将更详细地探讨为什么自填式，特别是音频CASI，可能比访员管理带来更多披露。

本节课总结：在本节课中，我们一起学习了自动化自填式调查模式，特别是CASI和ACASI。我们了解到，与访员管理相比，这些模式能显著提高受访者对敏感信息的披露率。我们还比较了自动化自填式与纸质自填式，发现自动化通常能带来更多披露。此外，我们探讨了ACASI在降低识字率要求方面的优势，尽管在直接增加披露方面，其相对于CASI的优势证据不一。这些知识对于设计能有效收集敏感数据的调查至关重要。

014：ACASI系统深入探究 🎧

概述

在本节课程中，我们将深入探讨音频计算机辅助自访系统（ACASI）如何以及为何能比传统的访员面访或纸质自填问卷，更能促进受访者对敏感问题的自我披露。我们将通过具体的实验研究，分析影响披露率的关键因素，例如“面孔”的存在与否以及受访者的主观状态。

从证据到问题

上一节我们回顾了证据，表明自填方式，特别是ACASI，比访员面访甚至纸质自填问卷更能提高敏感信息的披露率。

但核心问题是：ACASI究竟为何能促进披露？ 尤其是在与访员面访差异最大的方面。Lynn及其同事通过一项实验探讨了这个问题。

实验设计：四种访问模式对比

该实验比较了四种模式下“不良答案”（即社会不赞许的敏感答案）的披露率：

面对面访员面访
虚拟访员模式（高动画）：一个动画程度较高的计算机生成虚拟访员提问。
虚拟访员模式（低动画）：一个动画程度较低的计算机生成虚拟访员提问。
ACASI模式：仅播放上述虚拟访员的录音，不提供任何视觉信息。

选择这四种模式的目的，是为了检验究竟是“人类访员的存在”还是“面孔的存在”对披露率产生了抑制作用。

虚拟访员示例

以下是实验中虚拟访员“Victoria”的示例，帮助理解实验设置：

低动画版本：Victoria的头部、眼睛和嘴巴动作幅度很小。

“你好，我是Victoria。感谢你今天同意参与我们的调查。我将询问你关于生活的各种问题，你可以通过点击鼠标或键盘输入来回答。你今天提供的所有答案都将严格保密，所以请放心如实回答。你准备好开始了吗？”

高动画版本：Victoria有更多的动作，且嘴唇动作与发出的声音更同步。

“你好，我是Victoria。感谢你今天同意参与我们的调查。我将询问你关于生活的各种问题，你可以通过点击鼠标或键盘输入来回答。你今天提供的所有答案都将严格保密，所以请放心如实回答。你准备好开始了吗？”

核心研究发现

实验针对10个在面对面访员面访和ACASI间存在披露差异的问题进行了分析。主要发现如下：

面孔效应：最常见的模式是，有面孔的模式比没有面孔的模式披露更少。在10个问题中的8个里，两种虚拟访员条件（有面孔）产生的结果更接近面对面访员面访，而非ACASI。这表明，面孔的存在（无论是真人还是虚拟形象）会抑制披露，而不仅仅是人类访员的存在。
自动化模式 vs. 面对面：受访者在面对面模式下的披露率低于三种自动化模式（两种虚拟访员+ACASI）的情况，只出现在10个问题中的4个。这进一步支持了“面孔效应”而非“人类效应”是主要抑制因素的观点。

受访者主观状态的影响

研究还考察了受访者在访问开始时的主观状态（如舒适度）如何影响披露。

以下是关键发现：
受访者的舒适度与不同访问模式相互作用，影响了他们给出“不良答案”的概率。例如，在一项关于“过去一年是否曾在公交或地铁上为陌生人让座”的问题中，回答“从未”被视为社会不赞许行为。

当受访者在访问开始时表示感到舒适时，出现了经典的披露模式：自填模式（包括虚拟访员和ACASI）下的披露率高于面对面模式。
当受访者在访问开始时表示不舒适时，不同访问模式之间几乎没有差异，披露率都很低。

这表明，促进披露的原因不仅仅是隐私增加，还与受访者在访问开始和进行过程中的主观感受密切相关。

ACASI中声音特性的影响

ACASI的另一个特点是它包含录音语音。一个令人惊讶的发现是，尽管ACASI具有“声音”这一强烈的社会线索，但它仍比访员提问更能促进披露。

那么，声音的具体特性（如性别）是否会影响披露？ 对此问题的系统性研究不多，但一项由Dickson及其同事进行的研究表明：

对于男性受访者，当敏感问题由录制好的女性声音提问时，他们比由男性声音提问时更可能披露敏感信息。
对于女性受访者，录制声音的性别没有任何影响。

总结

本节课我们一起学习了关于自动化自填系统（特别是CAPI和ACASI）的深入讨论。

以下是核心要点总结：

与访员面访和纸质自填相比，ACASI似乎能提高敏感信息的披露率。
少数比较ACASI和纯文本CAPI的研究显示两者差异很小。
ACASI促进披露的主要原因似乎是缺乏面孔（无论是真人面孔还是数字面孔），而不仅仅是因为它是自动化的。
最后，ACASI中使用的录音声音可能会影响披露，这种影响取决于受访者的个人特征（如性别）。

过渡到下一主题

在接下来的部分，我们将转向网络调查，这是本课剩余部分将重点讨论的主题。我们将首先审视网络调查的误差属性，特别是覆盖误差，以及覆盖范围、抽样、无应答和测量误差如何影响网络调查所得估计值的质量。

015：网络数据收集的覆盖与抽样误差 📊

在本节课中，我们将学习网络或在线数据收集方法。我们将从之前讨论的、主要在面对面访谈背景下进行的“自填式”调查，过渡到受访者在没有任何访员参与的情况下自行完成问卷的情境。首先，我们将探讨网络调查如何影响不同类型的调查误差，包括我们一直在讨论的标准类型：无应答误差、抽样误差、覆盖误差和测量误差。我们还将介绍几种不同类型的网络调查，因为它们对误差有不同的影响。随后，我们会讨论网络调查中的交互性对数据质量的影响，这是其他类型的自填式调查（特别是纸质问卷）所不具备的特性。

覆盖误差

上一节我们介绍了网络调查的概况，本节中我们来看看覆盖误差。根据之前的讨论，覆盖误差主要取决于两个因素：未覆盖率以及被覆盖人群与未被覆盖人群之间的差异。必须将这两个指标结合起来，才能确定覆盖误差的大小。如果被覆盖者与未被覆盖者之间存在巨大差异，并且未被覆盖率很高（即更多人口未被包含在抽样框中），那么覆盖误差就会非常严重。

网络调查的覆盖误差是一个特别值得关注的问题，因为无法访问互联网的人，根据定义，就是未被覆盖的。没有互联网接入的人根本无法提供数据，因为他们永远不会被邀请参与这类调查。当然，我们稍后会讨论一些其他类型的网络调查，它们可能因为不需要明确的邀请而较少受此问题影响。

谁不在线？

在覆盖问题上，核心问题是：谁不在线？因为如果他们不在线，就无法在网络调查中提供数据。

以下是皮尤研究中心提供的数据，说明了某些群体存在较高的未上网率，因此任何基于互联网用户的抽样框都会对这些群体产生较高的未覆盖率：

老年人
低收入人群
仅拥有高中或以下学历的人群
居住在美国农村地区的人群

举例来说，如果你想通过网络调查来测量人们对农业问题（例如农业补贴）的态度，那么农村地区居民在网络上的代表性不足，就可能导致你无法准确测量在农业问题更重要的地区（即农村地区）的态度。由于这种对农村地区人口的覆盖不足，如果你想将结果推广到总体，这将是一个非常严重的问题，因为并非所有人口成员都平等地拥有互联网接入。

人们不在线的原因

以下是公众成员不在线的一些常见原因（同样来自皮尤研究中心）：

不相关/无兴趣：认为上网无关紧要、浪费时间。
太忙：没有时间上网。
不需要/不想：没有上网的需求或意愿。
使用困难：觉得上网操作困难、令人沮丧，或者不知道如何使用。
身体障碍：有残疾阻碍他们上网。
安全顾虑：担心病毒、黑客等安全问题。

关键点在于，并非所有人都在线。一个旨在将结果推广到总体的网络调查必须解决这个问题。

网络调查的抽样

网络调查的抽样带来了一些有趣的问题。有多种不同的网络调查抽样方法。

以下是几种主要的抽样方法：

不抽样：我们将看到一些类型的网络调查实际上根本不进行抽样。
基于列表的抽样：在这种方法中，总体中的所有成员都被列出并附有联系信息。
固定样本组：这是预先招募的大型参与者列表，有时包含数百万成员。它们主要分为两种类型：非概率固定样本组和概率固定样本组，我们稍后会详细讨论。
基于交易或拦截的抽样：例如，可以邀请访问某个网站的第N个用户参与调查。

目前，没有一个包含所有互联网用户（特别是包含电子邮件联系地址）的通用抽样框。这意味着，如果要邀请公众成员参与网络调查，很难通过电子邮件进行，但又非常希望这样做，因为电子邮件中可以直接包含调查链接，这大大降低了开始调查的障碍。作为替代，可以从手机号码库中抽样，并通过短信发送链接来联系公众成员，但这比较复杂。目前更常见的做法是通过邮寄纸质邀请函，其中包含一个网址（URL），样本成员需要手动输入该网址，这可能构成一个障碍。

基于列表的抽样

基于列表的抽样是可取的，它类似于其他调查模式中的抽样框。例如，我们之前讨论过的电话抽样框就是基于列表的（如通过随机数字拨号技术生成电话号码列表）。对于一些特定总体（非全国性总体），存在基于列表的抽样框。例如，拥有成员名单的组织（如大学的学生、公司的员工）就是一个很好的例子，他们都有电子邮件地址，可以通过这种方式联系。关键问题是列表的质量：它是否完整且最新？例如，在一个本科院校的学生名单中，一年后可能有25%的条目已经不准确（学生已毕业离校）。

在线固定样本组

在线固定样本组是基于列表抽样的另一种选择，可能更常用。一个定义是：一个预先招募的、已注册并愿意偶尔参与网络调查的人员库。这被称为在线访问样本组或访问池。注意，不要将其与纵向调查研究中使用的“固定样本组”混淆。纵向固定样本组指的是一组被招募来进行重复测量的参与者，而在线固定样本组的成员通常被邀请参与一次性或横截面调查，他们可能每天或每周收到多次邀请，但不一定是为了进行重复测量。

在线访问样本组的成员可能会频繁收到参与各种主题问卷的邀请，他们可以自行选择参与，通常应答率相当低。调查公司发现有效的激励措施包括积分、抽奖机会或通过PayPal等服务的在线转账。

对于所谓的“自愿加入样本组”，招募通常在线进行。这些志愿者可能在网站上看到横幅广告并点击，从而被纳入在线样本组，然后被要求提供联系信息。这与概率固定样本组的招募方式截然不同。概率固定样本组旨在支持对全国性总体的推断，因此其招募方式类似于其他模式中代表性样本的招募。事实上，它使用了其他模式的技术，即在线下进行。例如，通过随机数字拨号（随机生成电话号码并呼叫，邀请相关家庭或个人加入样本组），或某种基于地址的抽样方法（面对面招募）。这样做是因为没有互联网用户（特别是带有电子邮件地址的）的抽样框。但结果可以得到一个非常接近全国人口特征的参与者样本组。

不同类型样本组的准确性比较

一项由耶格及其同事报告的比较研究，将同一份问卷通过电话（使用随机数字拨号招募的样本）和通过GFK知识面板（一个概率固定样本组）进行施测的结果进行了对比。他们还比较了六个非概率固定样本组（即我们描述的那种访问样本组）的结果。研究者能够通过将电话调查结果（视为一种“金标准”）和行政记录（作为基准）进行比较，得出一个误差度量。如图所示，概率固定样本组的误差率非常接近电话调查，并且低于所有非概率固定样本组。从这个比较来看，非概率样本似乎比概率网络样本具有更高的误差率。

其他在线数据收集方法

除了样本组，组织和个人还使用其他一些方法来在线收集数据。

娱乐性投票

例如，“娱乐性投票”，如“今日问题”类型的投票。用户如果恰好访问某个媒体网站，可能会点击按钮进行“投票”（通常意味着回答一些投票问题）。这种方式根本无法定义参与者的总体，因此很难从这些数据中进行推断。但当它们用于娱乐目的时，实际上也不需要推广到总体。

无限制的自选调查

然而，这类无限制的自选调查由于上述原因是有问题的。我们对参与者一无所知，他们是自我选择的（例如，通过点击社交媒体上的链接或广告，或收到电子邮件邀请）。我们不了解总体，因此无法进行推断。同一个用户或参与者可能多次提供数据。这实际上就是“不抽样”的设计。

拦截调查

最后，在线拦截调查也很常见。从某种意义上说，它们是基于概率的（例如，邀请访问网站的第N个用户）。但是，与基于列表的抽样或固定样本组相比，同样对个体一无所知。这种方法适用于评估网站、网站用户满意度等任务，但不适用于对一般人群进行估计。

总结

本节课中，我们一起学习了网络数据收集中的覆盖误差和抽样问题。我们了解到，覆盖误差源于无法上网的人群被排除在外，而抽样则面临缺乏通用互联网用户抽样框的挑战。我们探讨了基于列表的抽样、概率与非概率固定样本组以及其他如娱乐投票和拦截调查等方法。关键点在于，概率方法（如概率固定样本组）在支持总体推断方面通常比非概率方法更可靠。接下来，我们将转向讨论网络调查中的另外两个重要误差来源：无应答误差和测量误差，并在讨论测量误差时重点关注问卷视觉设计方面的影响。

016：无应答处理 📊

在本节中，我们将探讨网络调查中的无应答问题。我们将了解无应答误差的概念、网络调查的应答率特点、影响无应答的因素，以及问卷填写过程中的“中断”现象。

网络调查中的无应答误差

上一节我们讨论了无应答的一般概念。本节中，我们来看看网络调查中的无应答问题。

对于网络调查，我们实际上对无应答者知之甚少，而这恰恰是量化无应答误差所必需的。因此，对于选择性加入或非概率样本组，几乎不可能讨论无应答误差，因为我们根本不知道其所代表的总体情况，也不知道是谁选择不点击横幅广告或参与调查。

相比之下，针对概率样本组中无应答误差的有限研究表明，无应答者与应答者在种族、民族、就业状况等变量上存在差异。因此，由于招募过程的原因，概率样本组中很可能存在无应答误差。

网络调查的应答率

如果我们只关注应答率，而非无应答误差，那么网络调查的应答率通常低于其他调查模式。从某种意义上说，这使得网络调查更容易受到无应答误差的影响。但正如我们讨论过的，这实际上取决于应答者与无应答者之间的差异，以及无应答者的数量。

多项元分析提供了应答率较低的证据。例如，Lozar-Man Freedda及其同事分析了45项研究，发现网络调查的应答率比邮寄问卷、传真问卷、电子邮件等更传统的模式低11%。另一项对39项研究的元分析也显示，网络调查的应答率比邮寄调查低约11%。不过，不同研究间的应答率存在很大差异。在某些情况下，网络调查的应答率实际上高于其他模式的同类研究。目前这尚无明确的理论解释，但总体趋势是，在线数据收集的应答率低于其他模式。

概率样本组的累积无应答率

对于概率样本组，存在一种累积应答率或无应答率，这与调查过程中存在多次可能不参与的机会有关。正如之前讨论的，样本组最初通过随机数字拨号和基于地址的抽样混合方式招募，这会产生一个初始应答率。数据显示，在尝试联系的家庭中，最终有36%被成功招募进入样本组。

然后，为没有网络接入的样本组成员提供设备（在收集这些数据时，设备是网络电视）。只有约67%的样本成员通过该设备成功连接到互联网。可以看到，随着流程的推进，应答者的比例在不断下降。

接着，样本成员需要完成个人资料填写，几乎所有人都完成了。但在此之后，只有47%的人保持活跃并留在样本组中。当进行第一次调查时，完成率为57.4%。这个57.4%是相对于之前所有步骤后剩余样本的比例。因此，最终的应答率仅为5.5%。如果无应答者在各种属性上与应答者相似，并且会像应答者一样回答问题，这就不是问题。但只有初始抽样框的5.5%最终提供了调查数据，无应答误差确实是一个值得关注的问题。

其他类型网络调查的应答率

其他类型的网络调查的应答率包括：

弹出式调查：至少在早期，其应答率高于其他类型的非概率调查，早期评估显示在24%到15%之间。这种调查的邀请会出现在用户正在浏览的主浏览器窗口之外的独立窗口中。
横幅广告调查：通常在网页顶部有一个横幅广告来宣传调查。这种方法产生的点击率非常低，在两项该方式盛行时期的研究中，点击率不到1%。

影响网络调查无应答的因素

影响网络调查无应答的因素实际上与其他调查模式相似。

以下是主要影响因素：

调查设计：例如，预先通知（如信件或电子邮件，假设有电子邮件地址）有帮助。
发送方或赞助方的权威性：如果发送方熟悉、显得权威，会提高参与度。
提醒：在初次邀请后发送提醒也有帮助，这在许多模式中都适用。
激励：激励措施有帮助。预付费激励（在线研究中更难实现）比承诺性激励更有效，这与其他模式相同。
问卷长度：问卷长度通常会在邀请中提及，一般来说，问卷越长，应答率越低。
样本成员属性：性别、个性、是否对该主题感兴趣、对调查研究的态度、参与调查的经验等都会影响参与度，正如在其他模式的调查中一样。

问卷填写中断

关于网络调查无应答的最后一个主题是“中断”或“放弃”。这指的是样本成员开始填写问卷，但在结束前的某个地方终止的情况。

实际上，这种情况在网络问卷的第一页最为常见。样本成员到达该页面后，决定不继续参与。一旦样本成员开始填写问卷，可以将中断视为介于项目无应答（提供缺失数据）和单元无应答（不提供任何数据）之间的情况。如果应答者回答了前10个问题，之后没有提供任何数据，这与在整个问卷中间歇性缺失数据不完全相同，这是一种放弃行为，通常被同时视为项目无应答和单元无应答。

中断在较长的问卷中更为常见，这并不奇怪，在难度较大、更费脑力的题目上也更容易发生。激励措施可以减少中断或延迟中断，即促使完成更多题目。进度指示器的主要设计目的是减少中断，其理念是向应答者提供关于已完成任务量和剩余任务量的信息。但事实上，进度指示器可能会增加中断，这是一个复杂的问题。目前的证据（并且仍在积累）表明，尽管进度指示器在直觉上似乎合理，但实际上会损害完成率，增加中断。

本节总结

本节课中，我们一起学习了网络调查中的无应答问题。我们了解到量化网络调查的无应答误差存在困难，网络调查的应答率通常较低，特别是在概率样本组中存在累积无应答效应。我们还探讨了影响无应答的各种因素，以及问卷填写过程中的中断现象及其影响因素。接下来，我们将转向测量误差的问题，并重点关注问卷视觉设计特征如何影响数据质量。

017：测量方法 📏

在本节课中，我们将要学习网络调查中的测量方法，特别是自我管理和视觉设计（如图像、输入框）如何影响受访者的回答质量。我们将逐一分析这些设计选择可能带来的好处与风险。

上一节我们介绍了网络调查中的覆盖和无应答问题，本节中我们来看看测量误差。关于测量对网络调查数据质量的影响，很难一概而论。因为网络为设计者提供了丰富的视觉媒介和交互功能选项，这需要我们逐一审视不同设计或功能对回答质量的可能影响。

一种思考网络调查选项和属性的方式，是看它们与纸质问卷有何不同。

它们是计算机化和自动化的。
与纸质问卷一样，它们是自我管理的。
它们可以具有丰富的视觉特征，我们将重点关注设计者对图像的使用（尽管网络问卷设计中还有许多其他可用功能）。
它们是交互式的，这与纸质问卷明显不同。我们将在下一节更详细地探讨交互性。

关于自我管理的主要问题是：网络调查在披露敏感或污名化信息方面，是否与纸质问卷、CASI（计算机辅助自填）或音频CASI等其他自我管理模式具有相同的好处？关于交互性的问题是：哪些功能有帮助，哪些没有？我们将在下一节讨论交互性。

自我管理的影响

现在转向自我管理。其潜在优势是，与社会期许反应及其他与访员在场相关的偏差会减少，这与其他自我管理模式类似。潜在劣势是，没有访员在场。访员（正如我们将在第三课看到的）可以通过多种方式增加价值：追问、澄清问题、协助受访者、激励他们等。这些在网络调查中都不存在，一切都必须由受访者自己完成。

此外，网络问卷可能不像音频CASI那样让人感到私密，因为网络的连通性、在线这一事实可能会削弱其自我管理的优势。无法保证是目标受访者本人在完成调查，可能是其他家庭成员、朋友，甚至是截获了邀请链接的陌生人。研究环境也不在研究者控制之下。与纸质问卷一样，环境可能嘈杂且令人分心，而研究者无从知晓。

但更具体到网络问卷的是，研究者无法控制问卷的显示方式。不同的浏览器和操作系统可能导致材料呈现方式大不相同。如果我们希望刺激（问题呈现）是标准化的，那么通过网络管理比其他模式更难保证这一点。

那么，关于自我管理对信息披露的影响，数据告诉了我们什么？

与电话调查数据相比，网络受访者报告：

锻炼频率更低。
饮食更不健康。
观看更多电视肥皂剧。
犯下更多交通违规行为。

这些都是不受欢迎的行为，受访者报告更多此类行为，表明他们更诚实、更坦率。

与面对面调查结果相比，网络受访者报告：

在上次选举中投票的频率更低。
为环境保护捐款的意愿降低。
对移民的态度更不积极。

这些也都是社会不期许的行为或态度，受访者报告这些，表明他们在网络调查中更坦率。从这些研究来看，自我管理在网络问卷中的作用方式似乎与其他自我管理模式相同。

一项由Kreuter、Presser和Tourangeau进行的研究比较了网络与其他两种模式。他们基本证实并复制了我们刚才讨论的结果模式，即网络问卷中的信息披露程度高于其他模式。他们还证明，当受访者给出更多不受欢迎的答案时，他们确实更诚实，因为他们能够通过行政记录验证这些答案。

以下是该研究的具体做法：

他们将大学校友随机分配到三种模式之一：网络问卷、按键式电话IVR访谈、电话访谈（CATI）。
询问受访者关于其学业表现的问题，其中一些问题可能比较敏感，例如询问他们的平均绩点是否低于4分制中的2.5分，或者是否至少得过一个D或F（即课程不及格或表现很差）。

研究发现，网络受访者比电话受访者（实际上也比IVR受访者）报告了更多社会不期许的学业表现。IVR也是自我管理的，但至少问题是语音播报的。这正如我所说，与刚才讨论的结果模式一致并加强了该模式。

但这项研究更进一步，表明当受访者披露更多时，他们也更准确。与大学记录（注册处向研究者提供了这些校友的学业记录）相比，网络受访者比IVR受访者更准确，而IVR受访者又比CATI受访者更准确。这表明，当受访者披露更多时，他们是诚实的。这也是大多数涉及敏感信息披露的模式比较研究背后的假设：更多的披露反映了更大的坦率或诚实。

此外，有迹象表明，问题的在线呈现方式影响了受访者对问题的感知，特别是有些问题被认为侵入性较低，这很可能解释了网络模式比其他模式有更高的披露率和诚实度。从图中可以看到，对于具有不受欢迎特征的问题，回答“是”的百分比，网络模式高于IVR模式，IVR模式又高于电话模式。

图像在网络调查中的使用

现在转向网络调查中图像的使用。正如我所说，设计者可以操控许多视觉特征，图像只是其中之一，但从网络调查诞生之初，设计者就一直在使用图像。图像的特点是易于使用且插入网络问卷的成本低廉。

图像的使用似乎主要是为了使页面更具吸引力，最终提高受访者的注意力或参与度，这应该会带来更高的完成率。因此，它们旨在让受访者专注于任务。

但它们如何影响（或是否影响）受访者给出的答案？这才是我们接下来要关注的重点，在查看图像在网络调查中的使用方式示例之后。

以下是图像在网络调查中的几种常见用途：

作为问题的核心：受访者对图像中显示的内容进行评估，此时图像是问题的核心，可能没有关联文本。
提供背景信息：通过提供重要的背景信息使任务更容易。
作为装饰：图像仅是装饰和吸引眼球，不提供实质内容。
替代文本：当文本涉及具体名词时，可以用图像替代文本。
补充问题：提供口头信息本身未提供的信息，通常用于定义问题中出现的术语。

Cooper、Tourangeau和Kenyon系统地探索了使用图像定义问题中术语或短语的想法。他们想看看，对于关于行为频率的问题，如果图像导致对该行为产生更高或更低频率的解释，是否会相应地影响频率报告。

例如，在一个关于购物的问题中，如果伴随问题的图像显示百货公司，他们推测这可能导致比显示杂货店的图像更低的频率报告。因为人们去杂货店的频率通常高于去百货公司。如果受访者使用这些图像来帮助定义“购物”的含义，就可能影响他们提供的频率报告。

图表显示了他们询问的六种行为的平均报告频率，按他们测试的四种实验条件分组：低频图片、无图片、高频图片、或同时有低频和高频图片。需要记住的是，当同时提供两种图片时，高频图片是存在的，因此它有可能影响受访者的答案。

他们观察到，对于六种行为中的每一种，最右边的两组条形图（对应高频图片或同时有低频和高频图片）导致了最高的频率报告。这正是他们推测会发生的情况。因此，受访者似乎确实在使用这些图像来帮助定义问题中的术语。如果这是设计者的意图，并且他们清楚希望受访者得出何种解释，这可能是一种好的做法。但如果图像的使用不那么慎重，则可能会扭曲数据，偏离问题或研究的目标。

图像作为参照框架的影响

转向另一项关于图像影响的研究，由Cooper及其同事进行。他们想看看图像是否能提供与口头信息相同类型的语境。有一个众所周知的现象叫做问题顺序效应或语境效应，即当前问题的答案会受到前一个问题答案的影响，因为前一个问题可能作为比较标准或以其他方式为当前问题设定了背景，而当它不被问及时，回答会不同。这里的问题是，图像是否以同样的方式起作用。

他们要求受访者评价自己的健康状况（即自评健康问题，广泛用于各种研究）。他们在问题中加入了两种图像之一，并置于三个位置之一。图像内容要么是一个明显生病的女人躺在医院病床上，要么是一个健康的女人在慢跑。他们改变了图像在问题中的位置：在标题中央、在问题左侧、或在上一屏。

问题是：图像的内容和位置如何影响受访者评价自己健康的方式？想法是，受访者很可能将图像用作参照框架，即使设计者可能从未打算这样。

我们看到，在三个位置中的至少两个位置，受访者确实这样做了。当图像出现在问题左侧时，如果描绘的是医院病床上的生病女人，受访者对自己健康的评价高于图像描绘健康慢跑女人时。想法是，如果他们将自己与医院病床上的女人比较，可能会说“我的健康可能比她好，不算太糟”；但如果将自己与健康的慢跑者比较，可能会说“我没有他们在这里定义的健康那么好”。因此，通过比较，他们觉得自己不那么健康。

当图像出现在上一屏时，也观察到了相同的模式。因此，受访者实际上将这种影响延续了下来，就像我之前提到的传统问题顺序效应一样。当图像出现在标题中央时，图像对答案实际上没有影响。视觉上可见的微小差异实际上并不显著。作者提出的一个解释是，这是“横幅盲点”的一个例子，在人机交互文献中关于网页的一般使用中已被指出。即网页用户（访问者）通常对页面上方横幅区域内容的关注度低于页面其他区域（至少在这项研究进行时是这种现象）。但这里的要点是，受访者正在使用这些图像作为参照框架，即使设计者可能从未打算如此。在这个案例中，这是实验者有意设计的，但正如我们在前面的例子中看到的，图像似乎几乎被用作装饰或至少是附带性的，这展示了当采用这种做法时可能发生的情况。

输入框设计的影响

网络调查设计者拥有的视觉选择的最后一个例子，涉及开放式问题的答案框或输入字段。问题在于这些框的外观是否以及如何影响答案，以及受访者在解释所给任务时投入的努力程度。

一项由Koch进行的研究改变了答案框的大小和结构。一种情况是向受访者呈现一个大答案框，另一种情况是10个小答案框。要求受访者尽可能多地想出特定类型产品的品牌实例，他称之为无提示品牌回忆。要求受访者在三个类别（保险公司、航空公司、汽车轮胎）中执行此任务。

可以看到，左侧的单一大框没有任何结构，他们只是输入品牌；右侧的10个小框清楚地表明他们每个框输入一个品牌。他们被问到的问题是：“想到汽车轮胎时，哪些品牌会浮现在脑海中？”

小框格式特别有可能增加对不那么 memorable 或不易想起的品牌的报告。一些证据表明受访者在更努力地检索这些品牌，这来自于观察到当答案输入10个小框时，响应时间比输入一个大框时更长。因此，当给受访者10个小框时，他们显然投入了更多努力，因为设计似乎传达的信息（或至少其含义）是，他们确实被要求想出10个实例。顺便说一下，生成的品牌排名在两种情况下是相同的，所以10个小框只是生成了更多品牌，但没有改变任何品牌相对于其他品牌的评价方式。

因此，关于答案框使用的结论是：受访者从答案字段的设计中推断问卷设计者期望他们做什么。因此，设计者在开发输入字段时，心中应有清晰的测量目标，因为受访者会将设计解读为设计者希望他们做什么的指示。

总结

本节课中我们一起学习了网络调查中测量方法的关键方面。

我们探讨了自我管理模式在网络调查中的优势（如减少社会期许偏差）和劣势（如缺乏访员协助、隐私顾虑和环境不可控）。数据表明，自我管理确实能促进对敏感信息的更诚实披露。

我们重点分析了视觉设计元素，特别是图像的使用。图像可用于定义术语、提供背景或作为装饰，但研究显示，受访者会无意识地将图像内容作为解释问题的参照框架或比较标准，从而可能影响回答。因此，设计者必须审慎并有目的地使用图像。

最后，我们考察了开放式问题输入框的设计。输入框的大小和结构（如一个大框 vs. 多个小框）会向受访者暗示任务期望，影响其回答的详尽程度和努力程度。设计者需要根据测量目标来设计输入字段。

总而言之，网络调查的测量质量高度依赖于具体的设计选择。设计者必须深思熟虑，确保每个视觉和交互元素都能服务于研究目标，而非无意中引入偏差。

在下一节中，我们将看看设计者可用的交互功能，例如进度指示器或关于答案完整性的反馈。问题在于这些功能中哪些是有帮助的，哪些是没有帮助的。我们很快会看到。

018：方法、社调问卷设计、抽样、缺失数据、分析：2.3.1 进度指示器与实时统计 📊

在本节课中，我们将要学习网络调查中的交互性功能，特别是进度指示器和实时统计反馈。我们将探讨这些功能的理论优势、实际效果以及它们对问卷完成率和数据质量的影响。

上一节我们讨论了网络调查的视觉设计，本节中我们来看看如何通过交互性功能来增强调查体验。交互性功能允许问卷工具向受访者提供反馈，例如显示完成进度、标记不一致的答案或检测算术错误。理论上，这些功能可以提升受访者的参与度和答案的准确性。

交互性的潜在优势与劣势

交互性功能在概念上既有优点也有缺点。

潜在优势包括：

提供反馈：问卷可以像人工访员一样，提供进度指示、标记逻辑矛盾或计算错误。
辅助计算：工具可以为受访者执行计算，加快答题速度。
检测快速答题：系统可以识别出答题过快的行为，并向受访者提供反馈。
模拟人工访员：通过定制化的鼓励和帮助，使计算机化工具更像由人类管理。
提供辅助工具：例如，可以按需提供定义解释，帮助受访者理解问题。

潜在劣势包括：

技术要求：某些工具需要插件或特定软件，可能降低可访问性。
社会临场感效应：设计得过于人性化的问卷，可能会像面对真人访员一样，抑制受访者对敏感问题的诚实回答。

进度指示器的效果分析

正如前面提到的，提供进度反馈似乎是一个积极的交互功能。其理念是，如果受访者知道自己的完成情况，会更有动力完成任务，避免因感觉“永无止境”而放弃。

然而，多项关于进度指示器的实验研究得出的总体结论是：进度指示器并不能如预期般减少中途退出率，反而可能增加退出。一项元分析综述了大量研究，证实了这一普遍结论，尤其是在较长的问卷中，进度指示器更可能产生负面影响。

进度指示器降低完成率的原因在于：反馈内容本身至关重要。如果反馈信息告诉受访者“还有很长的路要走”，这实际上会成为一种阻碍。受访者会关注反馈内容，而令人沮丧的反馈会促使他们放弃任务。

康拉德等人的一项研究清晰地证明了这一点。他们设计了三种不同的进度显示方式：

线性进度指示器：完成进度匀速增长。
先快后慢进度指示器：前期进度显示很快，后期变慢。
先慢后快进度指示器：前期进度显示很慢，后期加快。

研究结果显示：

先慢后快进度指示器导致的中途退出率，比先快后慢进度指示器高出近11%。
先慢后快进度指示器让受访者感觉调查耗时更长，尽管实际时间并无差异。
先快后慢进度指示器让受访者认为调查更有趣。
普通的线性进度指示器在减少退出率方面，与不提供任何进度指示相比并无可靠优势。

因此，关于进度指示器的结论是：鼓励性的反馈信息有助于提高完成率，而令人沮丧的反馈则会促进中途退出。对于长问卷，可能完全不提供进度指示器会更好。

严（Yan）和同事发现了一种特殊情况：当调查邀请函承诺任务很短（仅5分钟），且问卷确实很短时，进度指示器能提高完成率。但这属于非典型条件，且在这种最不需要额外动力的情境下，进度指示器的作用才显现出来。

实时统计反馈（常数和项目）

现在，我们转向另一个被称为“常数和”或“实时统计”项目的交互功能。在这种情况下，交互性似乎总体是有益的。

这类项目要求一组答案的总和等于一个固定值，例如100%或24小时。康拉德等人研究了在答案累积过程中提供反馈的效果。他们向完成常数和项目的受访者提供了四种反馈类型之一：

实时统计：每输入一个答案，总和实时更新。
延迟消息：仅在提交的答案总和未达到100%时给出提示。
组合反馈：实时统计加延迟消息。
控制组：无任何反馈。

以下是实时统计的示例，底部总和栏会随着上方答案的输入而更新：

答案1: [20] %
答案2: [30] %
答案3: [50] %
当前总和: 100%

研究结果发现：

这种反馈提高了答案的“准确性”（即答案总和符合目标100%）。
延迟反馈（提交错误答案后才收到提示）导致答题速度比实时反馈或无反馈更慢。这是合理的，因为受访者需要重新修正已提交的错误答案。

在后续的两项研究中，作者评估了反馈对真实准确性（而非仅格式正确性）的影响。他们将受访者对各类活动的时间估计与美国时间使用调查的公布数据进行比较，并对比了受访者对问卷各部分耗时的估计与实际时长。

他们发现，反馈确实通过更直接的测量提高了准确性，但实时反馈并未带来额外益处，仅延迟反馈本身就足以产生这种积极效果。

总结与下节预告

本节课中我们一起学习了网络调查中两种关键的交互性功能。我们发现，进度指示器的实际效果往往与直觉相反，可能增加受访者的退出意愿，尤其是在长问卷中。而实时统计反馈对于需要总和固定的问题（如常数和项目）则被证明是有效的，能显著提高答案的准确性和格式正确率。

在下一节中，我们将讨论如何交互式地向受访者提供定义解释，以帮助他们更好地理解问题。这种方式可以模拟人工访员的行为，并非所有受访者都会看到定义，我们将在第三课中详细探讨。稍后见。

019：在线调查中的交互功能——定义获取 📖

在本节中，我们将探讨在线调查中一个关键的交互功能：如何让受访者按需获取问题中术语的定义。我们将分析影响受访者获取定义意愿的关键因素，并通过实验数据来理解设计选择的重要性。

上一节我们讨论了在线调查中交互功能的概述，本节中我们来看看一个具体的应用：如何帮助受访者理解问题中的术语。

受访者可能无法完全按照设计者预期的方式理解问题中的所有术语。当受访者意识到自己存在误解或感到困惑时，他们可能需要获取定义。交互功能使得受访者能够按需获取定义，即只在需要时才展示，而不是向所有受访者（包括那些已经正确理解问题的人）展示定义。

除了意识到需要定义外，关键问题在于受访者获取定义需要付出多少努力。在一项研究中，康拉德及其同事通过改变三个实验因素对此进行了测试：

以下是实验中的三个变量：

获取定义所需的点击次数：这是操控努力程度的一种方式。尽管点击是低努力行为，但受访者可能会注意到点击次数的差异。
定义的有用性：如果定义提供了反直觉或出乎意料的信息，可能会鼓励受访者获取更多定义。
术语的性质：技术术语容易被识别为“未知”，而普通术语可能被特殊使用，受访者可能意识不到这一点。

这是受访者看到的界面。他们被要求对一系列营养项目进行评分，判断摄入量是否足够。这些项目（如“多不饱和脂肪酸”）是相对专业的术语。

在一键点击界面中，受访者点击术语即可弹出定义，这是最简单的设计。为了实验目的，研究者也设计了需要更多努力的界面：

以下是不同努力程度的界面设计：

两键点击界面：受访者点击术语后，会看到一个所有可定义术语的列表，他们需要从中找到并点击目标术语才能看到定义。这需要两次点击和浏览列表的额外努力。
点击并滚动界面：受访者点击术语后，会看到一个包含所有术语定义的词汇表，他们需要滚动页面才能找到所需的定义。这需要的努力程度是可变的，但总是多于一次点击。

研究发现，总体上只有13.8% 的受访者曾请求过定义。这可能是因为受访者不愿投入额外努力，或者没有意识到定义能帮助他们理解问题。

然而，如果深入分析，会发现获取定义所需的努力程度确实影响了定义的请求频率。一键点击定义（努力最小）的使用频率显著高于两键点击或点击并滚动的方式，尤其对于普通术语，以及当定义内容有用时（例如，定义“蔬菜”时包含“炸薯条”这种出乎意料的例子）。

点击的努力看似微不足道，但实验发现，如果使用无需移动食指的交互方式，受访者获取定义的可能性会更高。在第二个实验中，研究者比较了一键、两键和悬停（即鼠标指针移动到热区即弹出定义）三种方式的请求频率。

结果发现，使用悬停界面的受访者中，请求定义的比例高于其他两种界面。虽然部分悬停可能是无意的，但证据表明，即使是无意触发，受访者也会阅读定义并将其信息纳入回答考量。当然，其中很大一部分悬停很可能是有意寻求澄清的行为。

因此，努力程度和对定义必要性的认知是影响定义请求的关键因素。通过提供定义，我们是在鼓励“良好行为”——我们希望尽可能降低受访者获取理解问题所需信息的努力。

然而，交互功能还有另一类用途，即阻止不良行为，例如受访者答题速度过快（“ speeding ”），没有经过认真思考。在下一个主题中，我们将探讨一种用于减少过快答题的交互方法。

本节总结
本节课中，我们一起学习了在线调查中“按需获取定义”这一交互功能。我们了解到，受访者主动请求定义的比例通常不高，但通过最小化获取定义所需的努力（如使用一键点击或悬停）和提供有用、反直觉的定义内容，可以有效提升其使用率。这有助于确保受访者按照设计者的意图理解问题，从而收集到更高质量的数据。

020：加速干预策略 🚀

在本节中，我们将探讨两种涉及交互式提示的现象。具体来说，我们将讨论如何减少被认为是不良的受访者行为。我们将关注两类受访者：一类是“加速”回答者，即回答速度异常快；另一类是“项目无应答”者，即完全不回答问题。

处理“加速”回答行为

上一节我们讨论了交互式功能，本节我们来看看如何应对受访者回答过快的问题。在研究中，我们设定了一个阈值：每词300毫秒。低于此速度的回答被视为“加速”。例如，对于一个10个词的问题，回答时间低于3秒（即3000毫秒）即被判定为加速。这个阈值是基于美国成年人平均阅读速度提出的。当然，个体阅读速度存在差异，但这个阈值作为一个整体标准是有效的，意味着此类干预措施无需为每个受访者量身定制。

当受访者的回答速度低于此阈值时，他们会收到类似以下的提示：

“您似乎回答得非常快。请确保您已给予问题足够的思考，以提供准确的答案。您想返回并重新考虑您的答案吗？”

我们进行了一项实验，比较了两种条件下的“加速”情况：实验组在受访者加速时会收到上述提示，而对照组则不会收到任何提示。实验涉及两类问题：

七道自传体数量问题（例如，“去年您在外过夜了多少晚？”），其真实值未知。
七道简单的算术或概率问题，其正确答案是已知的，这有助于我们评估回答的准确性。

以下是实验结果。在无提示的对照组中，“加速”行为相当普遍（约61%-62%的受访者至少加速一次）。而在收到提示的实验组中，所有情况下的加速行为都减少了。这表明，提示干预有效地减缓了受访者的回答速度。

那么，这是否意味着他们思考得更深入，从而回答得更准确了呢？还是他们只是为了避免再次收到提示而拖延时间，实际上对问题的思考依然肤浅？

在我们可以知晓正确答案的算术和概率问题实验中，我们进一步分析了提示是否提高了回答准确性。总体而言，提示对回答准确性没有显著影响。但当我们按教育水平细分受访者时，发现了一个效应：拥有“部分大学或副学士学位”的受访者在收到加速提示后，回答准确性提高了。他们放慢了速度，并似乎利用额外的时间进行了更深入的思考。这部分受访者约占40%。

而仅拥有高中学历的受访者，以及拥有学士或更高学位的受访者，其准确性未受提示影响。这可能是因为：

对于高中学历组，即使给予更多时间，他们可能仍觉得这些衡量基础计算能力的问题有难度。
对于学士及以上学历组，这些问题可能过于简单，他们原本就能快速且正确地回答，我们的“加速”判定对他们而言可能过于严格。

因此，至少对于这些测试项目而言，提示引起的减速似乎主要改善了中间教育水平群体的回答准确性。

处理“项目无应答”行为

接下来，我们看看交互式提示的另一个应用场景。当受访者“加速”时，他们某种意义上并未认真回答问题。另一种情况是受访者根本不提供任何答案，这被称为“项目缺失数据”或“项目无应答”。

一种减少无应答的方法是强制要求受访者必须提供答案才能进入下一题。但这可能引起反感，导致受访者中途退出，使策略适得其反。

另一种方法是在选项中提供“不知道”或“拒绝回答”的选项。但这可能鼓励受访者使用这些选项。Deff Ray和Cooper尝试了一种结合方法：在提供“拒绝回答”选项的同时，配以交互式提示，委婉地鼓励受访者作答。

他们测试了四种界面变体：

明确提供醒目的“拒绝回答”选项。
提供“拒绝回答”选项，但使用较小字体。
不明确提供该选项，受访者可不作答直接跳过（隐含选项）。
显示提示信息：“我们非常希望得到您对本问题的回答。如果您愿意选择其中一个答案，请点击‘返回’；如果您宁愿不回答此问题，请点击‘下一步’。谢谢！” 这旨在鼓励作答而非强制，试图在“强制”和“放任”之间取得平衡。

结果显示，第四种带有鼓励性弹出信息的界面，在降低项目无应答率方面，比其他三种界面更为成功。

本节总结

本节课中，我们一起学习了两种利用交互式提示改善数据质量的策略：

针对“加速”回答：设定速度阈值（如每词300毫秒）并在超速时提示，能有效减缓受访者速度。对于部分群体（如中间教育水平者），这种减速可能转化为更高的回答准确性。
针对“项目无应答”：在提供“拒绝回答”选项的同时，搭配鼓励性的交互提示（如“我们非常重视您的答案”），能更有效地减少不回答的情况，且比强制要求更为友好。

至此，我们已经探讨了自填式问卷（特别是网络问卷）的多个方面。我们了解到，对于敏感问题，计算机化自填比纸笔自填能获得更坦率的回答，网络调查也是如此。同时，我们也认识到网络调查存在覆盖偏差问题，并非所有人都能接入互联网。在抽样方面，概率样本面板比自愿者样本面板通常能产生更准确的数据。最后，在交互功能上，我们看到它们能以较低成本促进积极受访行为、减少不良行为，但也需谨慎使用（如进度指示器可能降低完成率）。

在接下来的模块中，我们将转向访员与访谈。访员能通过提高应答率、确保受访者专注任务、解释问题意图来显著改善调查估计。不同的访谈技巧可以侧重这些优势。同时，访员也可能引入额外的误差（即“访员效应”），这取决于他们的问卷执行方式及其固有属性（如种族、性别）。

021：Reg Baker市场研究访谈：网络调查应用 📊

在本节课中，我们将学习网络调查的应用。我们邀请了网络调查设计、实施和评估领域的国际权威专家Reg Baker博士，分享他关于市场研究、公共舆论研究以及网络调查未来发展的见解。

访谈概述

Reg Baker博士在网络调查方法论领域享有盛誉，曾在美国国家民意研究中心、ORC国际、市场战略国际以及市场研究协会国际担任高级管理职务。他领导了美国公共舆论研究协会关于在线面板和非概率面板的两个重要工作组，其报告与我们的课程内容高度相关。

为何选择网络调查？🤔

上一节我们介绍了Reg Baker博士的背景，本节中我们来看看研究人员选择网络调查的原因。

研究人员选择通过网络调查收集数据，而非其他模式，主要有两个视角的原因。

以下是市场研究人员的考量：

成本低廉：网络调查通常费用较低。
速度快捷：能够快速完成数据收集和初步分析。

以下是公共舆论或社会研究人员的考量：

应对低应答率：传统概率抽样方法越来越难以获得理想的应答率。
高网络普及率：特别是在美国，网络普及率已接近90%，为网络调查提供了基础。

当然，在选择具体方法时，还需要根据研究决策的具体需求和数据用途来判断哪种方式更优。

市场研究与社调研究的差异 🔍

上一节我们讨论了选择网络调查的普遍原因，本节中我们具体看看市场研究人员与公共舆论/社会研究人员在 rationale 上的区别。

除了成本和速度，市场研究人员还特别看重网络调查的精准定位特定人群的能力。对于电话或邮寄调查而言，寻找发生率低于10%的低发人群非常困难且成本高昂。而借助大量的在线面板，可以轻松触达这些低发人群。

例如，市场研究可能主要关注购买罐装汤的消费者。通过电话筛选这类人群在经济上是不可行的，而在线面板则能有效解决这个问题。

调查设计的差异 📝

那么，这两类研究人员设计的在线调查本身是否有不同呢？答案是肯定的。

市场研究人员更倾向于探索新的交互功能和图形功能。网络调查的一个“杀手级应用”是联合分析。这是一种分析技术，向受访者展示产品的多种特性组合，让他们选择最重要的特性或以不同方式配置产品。这背后需要一套系统，在一系列页面中有序地变换这些组合。这在电话调查中很难实现。

市场研究人员在过去十年中投入了大量时间研究交互性，将其作为吸引受访者的机制。这利用了电话调查所不具备的视觉维度优势。相比之下，社会研究领域对此的优先级通常不高，问卷设计更为直接。

适合与不适合的调研主题 ⚖️

现在，我们来探讨哪些研究主题更适合或不适合在线数据收集。例如，如果需要人口总体参数估计，这是否意味着应该选择网络以外的模式？

这目前是行业内的一个重大争论点。我们正处在一个转折点：概率抽样已不如从前可靠，非概率抽样（如在线调查）有时有效，有时无效，并且我们并不总是清楚原因。

尽管在舆论和社会研究领域，概率抽样仍然是首选，但越来越多的人开始转向在线调查，并着手解决从本质上自我选择的样本中创建代表性的难题。同时，概率抽样本身也面临挑战，因为它经常违反高应答率这一理论基础，并且在许多情况下存在覆盖范围问题。

因此，传统的概率与非概率抽样之间的界限正在模糊，因为双方都存在假设被违反的情况。如果出于其他原因选择在线数据收集，可以放心去做。例如，美国主要电视网和报纸已开始与在线面板合作发布民调。

网络调查的独特测量技术 🖥️

网络调查有哪些测量技术是纸质问卷、电话或面对面访谈无法部署的呢？联合分析是一个很好的例子，还有其他技术吗？

任何具有视觉维度的测量都更适合网络。例如：

广告测试：可以展示平面广告，让受访者用鼠标高亮显示广告中最吸引他们的部分。
多媒体展示：能够向人们展示多种不同的广告，甚至是电视广告片段。

这些在电话调查中难以实现，而市场研究早在约30年前就基本放弃了面对面访谈。

不同规模研究者的获益 👥

个体研究者、小型组织与大型公司，各自如何从网络调查中获益？

对于小型组织或个体研究者：

电话调查通常需要昂贵的电话中心以确保质量控制。
如今，研究服务供应链极大扩展，使得小型团队可以通过分包完成复杂工作。
优秀的在线问卷制作工具和发达的在线抽样产业，让几乎任何人都能进行网络调查。

对于大型公司（包括科技公司）：

“自己动手”（DIY） 趋势日益显著，许多公司希望不通过市场研究公司，直接使用工具（如 Qualtrics）自行收集数据。
大型企业正越来越多地采用这种方式。

网络调查的未来与标准 🌐

展望未来，网络调查将走向何方？在建立国际标准方面，哪些问题已解决，哪些仍需关注？

标准制定工作的核心是将研究行业的伦理标准（如知情同意、保密性）置于在线调查的新方法论背景下进行解读。由于抽样方式与传统方法不同，这些问题需要重新厘清。

另一个重点是透明度，确保客户充分了解调查是如何进行的，包括抽样、方法质量等所有要素。

未来的挑战在于在线研究的范畴正在扩大。当前的前沿议题是“被动数据收集”——即使未经许可也能轻易在线收集人们的数据。如何管理这种关系、处理保密和同意问题是一大难题。欧盟的《通用数据保护条例》（GDPR）在全球隐私框架中最为严格，它正在为世界设定标准，特别是在处理被动数据收集和移动设备追踪方面。

官方统计与覆盖范围 🏛️

在官方统计领域，网络调查的应用前景如何？美国政府采用在线数据收集生产官方统计的进程缓慢，这种情况会改变吗？

是的，改变正在发生。例如，加拿大最近的人口普查大部分在线完成，美国也承诺在2020年人口普查中大量采用在线方式。未来的趋势是结合行政记录和在线调查来收集数据，逐渐远离传统的普查方法。

覆盖范围与设备演进信号塔

网络数据收集的一个主要担忧是覆盖范围问题。互联网普及率是否已达到平台期？未来能否实现100%的设备和网络覆盖？

100%覆盖可能不现实（电话也从未达到100%）。但从美国视角看，我们正接近一个临界点，即原则上覆盖不再是重大问题。皮尤研究中心最近的实验表明，在线受访者与通过邮件/电话补充受访者之间没有显著差异。

真正的挑战在于如何构建抽样框。我们无法列出所有在线人口的名单然后抽样。面板或其他获取在线受访者的方式，才是覆盖范围问题变得棘手的地方。

在全球范围内，移动网络正在改变游戏规则。发展中国家正在跳过桌面互联网阶段，直接进入移动网络时代。这使得通过移动网络在全球范围内接触受访者成为可能，这在十年前是无法想象的。

技术变革与调查模式演进 📱

回顾历史，有哪些关键的技术或社会发展使网络调查成为可能？未来会有颠覆性发展吗？

浏览器和互联网的引入无疑是关键的。展望未来，变化可能不会那么剧烈，但调查总体呈下降趋势。主要的颠覆性力量将来自移动技术，包括可穿戴设备、地理位置信息等。

行业内的流行语是“移动优先”。目前，60-75%的重要客户尚未完全接受必须为移动设备设计问卷的理念，因为这主要涉及到问卷长度的挑战。研究表明，在线调查的最佳长度约为17-18分钟，而移动调查则需控制在8-10分钟以内。这对于习惯进行长期追踪调查的客户来说是一个巨大挑战。

最终，在线调查将与移动调查趋同，这是整个行业必须应对的最大变化。“移动优先”意味着首先为小屏幕设计，然后适配大屏幕或传统设备。

受访者行为与混合模式 📲

如今，要求受访者坐在大屏幕前一次性完成问卷还合理吗？

实际上，是受访者的行为推动了这一变化。研究人员发送邮件邀请，受访者更倾向于在移动设备上完成。而为桌面设计的问卷在移动设备上体验不佳。研究表明，如果你告诉使用iPhone的受访者需要改用桌面设备，你很可能会失去他们。

因此，人们将越来越多地远离桌面设备进行问卷调查。在美国以外，尤其是发展中国家，人们主要使用移动设备，根本没有桌面电脑。

混合模式的未来？ 🔀

网络调查的未来是否会主要作为混合模式数据收集的一部分，还是独立的网络调查将继续增长？

尽管讨论了很久，但混合模式并未大规模实现。除了像人口普查这类必须接近100%覆盖的官方统计机构外，混合模式似乎并非一个真正可行的长期替代方案。学术界也未能很好地解决模式效应等问题。

早期实验表明，给受访者选择模式的权利有时反而会降低应答率。因此，专注于一种模式（尤其是向移动/在线融合的模式）似乎更有前景。

抽样方法的演进 🎯

在抽样方面，非概率选择加入面板会继续作为主要抽样模型吗？还是会由其他方式取代？

概率面板虽然质量高，但非常昂贵，且难以用于寻找低发人群或进行小区域估计。

而非概率面板本身也正在衰退。行业现在转向“河流抽样”或“动态资源获取”。整个在线样本行业处于动荡之中，普遍使用“在线路由器”软件系统。大量样本被送入路由器，由路由器根据预设条件将受访者分配到多个等待的调查中。

下一步的发展可能是“程序化抽样”，借鉴在线广告的技术，利用积累的用户数据创建匹配特定特征的样本，其精细程度远超普通筛选问卷。这目前尚处早期阶段，但代表了未来的方向。

总结

本节课中，我们一起学习了Reg Baker博士关于网络调查应用的深入见解。我们探讨了选择网络调查的原因、市场研究与社调研究的差异、网络调查的独特优势、不同规模研究者的获益、行业标准与未来挑战（如移动优先、隐私和数据保护），以及抽样方法的演进趋势。网络调查，特别是与移动端融合后，将继续在数据收集中扮演重要角色，但其应用也伴随着对方法严谨性、代表性和伦理的持续思考。

022：访员角色与任务概述 🎤

在本节课中，我们将学习访员在数据收集过程中扮演的多重角色。访员的工作远不止于进行访谈本身，他们还需要完成招募样本成员、进行户内抽样等前期任务。这些活动直接影响调查的覆盖范围、抽样误差和无应答率。同时，访员在访谈中的具体行为，如提问和追问方式，也会对测量误差产生重要影响。我们将逐一探讨这些任务及其对数据质量的作用。

访员的核心任务与误差来源 🔍

上一节我们介绍了访员角色的概览，本节中我们来看看访员具体承担哪些任务，以及这些任务如何与调查中的各类误差相关联。

访员除了提问和记录答案，还执行多项任务，每一项都可能影响我们讨论过的不同误差来源。

关于抽样与覆盖误差：访员通过定位、联系样本家庭并确定哪些单元符合条件来影响覆盖范围。例如，在要求包含住宅结构的调查中，某些建筑并非住宅，因此不符合条件。此外，访员还执行户内抽样。这项任务的成功与否会影响抽样误差。
关于无应答误差或应答率：访员承担着联系家庭并获得合作的任务，可能需要说服不情愿的家庭成员成为受访者。不同访员在这方面的有效性存在差异，从而影响最终的应答率。
关于测量误差：在传统的以自我报告为主要测量方式的调查中，访员与测量误差关系最为密切，因为他们负责提问（即测量）。他们提问、对不完整的答案进行追问、澄清问题并记录答案。这个过程中可能出现多种问题：访员可能以不同的方式提问；他们追问的方式可能不同；问题可能被误解，而访员可能没有意识到，或者由于他们接受的培训或被要求使用的访谈技巧（例如，必须严格遵循脚本）而无法澄清误解。

因此，访员或多或少会对这些不同的误差来源产生影响。实际上，他们也能减少这些误差。例如，有访员参与的调查通常比自填式问卷的应答率更高。所以，访员既能为调查增值，也可能引入误差。无论好坏，他们对调查的成本和及时性都有巨大影响。在涉及访员的研究中，访员通常是最大的单项开支。因此，是否采用涉及访员的调查模式是一个非常重要的决策，研究人员应谨慎做出。

招募样本成员：访员的初步任务 📞

在讨论了访员任务与误差的广泛联系后，我们现在聚焦于一项具体的非访谈任务：招募样本成员。这指的是访员通过拨打电话或上门拜访，说服样本成员成为受访者的活动。

一些访员在获得访谈机会方面比其他访员更成功（这被称为“终身应答率”）。造成这种差异的原因可能包括：某些访员更擅长招募，或许因为他们更外向，或其个性本身就善于说服陌生人参与研究。另一种可能性（尤其对于电话访谈）是，这可能与他们和受访者交谈及互动的方式有关。

在电话招募中，样本成员对试图说服他们参与研究的访员的唯一了解，就是访员的声音和说话方式。电话访谈可能使样本成员更关注访员的语音特质和互动方式。

语音行为与招募结果的研究发现

以下是一些关于访员语音行为、他们与家庭成员的互动方式以及家庭成员如何回应会影响招募结果的研究发现。

在一项研究中，康拉德及其同事对1300个电话调查介绍中的访员行为属性进行了编码。这些行为包括：

不流利现象：如“嗯”、“啊”等填充词。
反馈性回应：由样本成员（而非访员）发出，例如“嗯嗯”、“好的”，表示在倾听并鼓励对方继续。
重叠发言或打断：即同时说话，通常表明互动存在一些问题。

他们建模分析了这些不同行为对三种结果的影响：同意参与研究、拒绝参与、以及预约回电（即推迟决定，约定未来再联系讨论参与的可能性）。

不流利现象（填充词）的影响：研究发现，完全流利（零不流利）的访员在招募家庭成员时实际上最不成功，同意率最低。当访员出现少量不流利时，同意率大幅上升。随着不流利程度增加，同意率会下降，但即使在不流利程度最高时，其成功率仍高于完全流利的访员。一种解释是，当访员完全流利时，听起来像机器人，似乎没有为特定的家庭成员量身定制邀请说辞，这成为参与的一大阻碍。
样本成员反馈性回应的影响：当样本成员发出更多如“嗯嗯”、“好的”等反馈性回应时，他们最终同意的可能性更高。这表明当他们发出正在倾听并授权访员继续的信号时，最有可能同意。
重叠发言（打断）的影响：总体而言，当邀请最终以拒绝告终时，重叠发言最多；预约回电的情况次之；而同意的情形下重叠发言最少。然而，并非所有重叠发言的作用相同。研究者特别关注的“打断”（即样本成员还在说话时访员就开始说话）似乎被访员策略性地用于阻止拒绝。数据显示，在最终结果为“预约回电”的互动中，访员打断样本成员的频率最高。研究者认为，访员通过打断来阻止可能导致直接拒绝的表述。

另一项由诺拉·凯德·谢弗及其同事进行的研究，考察了具有相同参与倾向的样本成员对。他们发现，即使两个人参与研究的可能性相同，结果也可能一人接受、一人拒绝。通过对话分析技术，他们揭示了造成这种差异的一些原因：

拒绝与同意发生的时机：拒绝可能发生在邀请过程中的任何时点（开场、研究描述后、参与请求后）。而同意只发生在明确的参与请求之后。这表明，获得同意需要明确的请求。
特定访员行为的影响：例如，访员在对方接电话后说“你好”比说“喂”更能提高同意几率；以非常礼貌的方式请求与样本成员通话也能提高几率；先自我介绍再提出请求同样能显著提高同意几率。
样本成员行为的影响：如果样本成员至少问了一个问题，他们更可能参与；如果询问访谈时长，则参与的可能性大得多（这暗示他们只有在考虑参与时才会关心时长）；然而，如果样本成员在访员提出参与请求之前就询问“这是什么关于？”之类的WH问题（是什么、为什么等），则表明一种怀疑或不愿参与的态度，会降低同意几率。如果在请求之后才问，则没有显著差异，因为此时其决定已基本做出。

这些例子说明了在电话招募中，访员的言语及其与家庭成员的互动方式如何影响招募结果。

户内抽样：确保样本设计的实施 🏠

在访员成功获得家庭成员同意参与后，接下来的任务可能是户内抽样或受访者选择。这确保了家庭中任何符合条件的成员都有可能被选为受访者，这对于实施样本设计至关重要。

最初同意参与的人（“守门人”）不一定会成为受访者。如果该人同意，仍可能选择另一名家庭成员作为受访者，并且可能需要说服该成员参与。这个户内抽样过程是访员在同意获得后进行的另一项关键活动。

本节课总结

本节课中，我们一起学习了访员在调查数据收集中扮演的多重核心角色。我们了解到，访员的工作不仅限于进行访谈，还包括招募样本成员和进行户内抽样等关键前期任务，这些任务直接影响覆盖误差、抽样误差和无应答率。我们深入探讨了在电话招募中，访员的语音行为（如流利度、打断策略）和互动方式如何显著影响样本成员的参与决定。最后，我们介绍了户内抽样这一步骤，它确保了样本设计的正确实施。理解这些角色和任务，是评估和管理访员对调查数据质量影响的基础。

023：户内受访者抽样 🏠

在本节课中，我们将要学习在家庭户调查中的一个关键步骤：户内受访者抽样。当抽样框中的单位（如家庭住址）与研究分析的单位（如个人）不匹配时，就需要这一额外步骤来从家庭中随机选择一名成员作为受访者。

概述

上一节我们介绍了抽样框与目标分析单位不匹配的问题。本节中，我们来看看如何在一个家庭户内选择具体的受访者。这被称为“户内受访者抽样”，是确保样本随机性的重要环节。

主要抽样方法简介

以下是几种常用的户内受访者抽样方法，我们将逐一介绍其原理和特点。

Kish方法：被视为“黄金标准”，能产生最随机的样本，并确保每个家庭成员有已知且相等的被选概率。但该方法较为复杂和侵入式。
生日方法：包括“最近生日法”和“下一个生日法”。方法简单，侵入性低，但属于准概率方法，因为确切的被选概率未知。
混合模型：一种折中方案，结合了简单询问与随机选择，旨在减少侵入性的同时，尽可能明确选择概率。
非概率方法：例如直接采访开门或接电话的人，或指定“最了解情况的人”。这些方法会引入明显的选择偏差。

Kish方法详解

现在，让我们深入了解被视为黄金标准的Kish方法。它的核心是使用预制的选择表来随机指定受访者。

操作流程如下：

访问员请家庭成员列出所有符合条件的家庭成员（如所有18岁以上者），形成名册。
将名册中的合格男性按年龄从大到小排序，合格女性也按年龄从大到小排序。
访问员根据家庭中合格人数，查阅随机分配的选择表，确定应采访名册上的第几人。

例如，一个选择表可能这样规定：

如果家庭有1位合格成员 → 选择 第1人
如果家庭有2位合格成员 → 选择 第2人
如果家庭有3位合格成员 → 选择 第2人
如果家庭有4位及以上合格成员 → 选择 第3人

通过使用多张不同的选择表并随机分配给各家庭，可以确保每个家庭成员无论家庭规模大小，都有相等的被选概率。

优点：选择精确，概率已知且相等。
缺点：过程繁琐、耗时，需要收集所有成员的性别和年龄信息，侵入性强，且访问员容易出错。

生日方法分析

接下来，我们分析更简单的生日方法。它通过询问生日信息来选择受访者。

典型问法如下（最近生日法）：

“我可以和您家里那位刚过完生日（最近一次生日）、年满18岁的家庭成员通话吗？”

优点：操作简单快捷，侵入性远低于Kish方法，且在户内能实现相等的被选概率（因为每个人拥有最近或下一个生日的几率相同）。
缺点：属于准概率抽样，因为确切的被选概率无法计算。此外，受访者可能故意谎报生日以避免被选中，且难以核实。

正因如此，一些学者不建议在严谨的科学调查中使用生日方法。

方法比较与混合模型

不同的方法在实际应用中表现如何？一项电话调查比较了Kish方法和生日方法的“中途拒访率”。

结果发现：

Kish方法的中途拒访率最高。
“下一个生日法”的拒访率最低。
许多拒访甚至发生在访问员开始正式提问之前，这可能意味着访问员的开场方式无形中暗示了后续程序的繁简程度。

基于这些权衡，研究者提出了一个混合模型，旨在减少侵入性。

其运作逻辑如下：

首先询问接听者：“您家中有几位成年人？”
如果只有1位，直接选择此人。
如果有2位，则进行类似抛硬币的随机选择（若接听者未被选中，则选另一人）。
只有在家庭有3位及以上成年人，且接听者未被随机选中时，才启用“最近生日法”进行选择。仅在极少数生日信息未知的情况下，才使用Kish方法。

这种策略大幅减少了需要使用复杂抽样方法的情况。一项测试表明，仅有约12%的家庭需要进入“额外抽样”步骤，显著节约了成本并可能降低拒访率。

选择方法时的考量

在选择户内抽样方法时，需要考虑以下几点：

回答误差：所有方法都可能存在。Kish方法要求完整列出家庭成员，受访者可能隐瞒；生日方法则容易被有意操纵。
回答率影响：如比较研究所示，复杂的列举程序（如Kish方法）可能导致更高的中途拒访率。
组织文化与客户偏好：不同的调查机构或项目委托方可能有其惯用或偏好的方法。

代理回答

最后，一个相关的问题是：如果被选中的受访者暂时无法接受采访，是否可以让其他家庭成员代理回答？

这在实践中确实存在，可以节省二次联系或访问的成本。但代理回答对数据质量的影响因调查主题而异，是需要谨慎评估的议题。

总结

本节课中，我们一起学习了户内受访者抽样的必要性及主要方法。我们详细探讨了精确但繁琐的Kish方法、简单但概率未知的生日方法，以及折中的混合模型。每种方法都在随机性、精确度、操作复杂度和受访者负担之间进行权衡。理解这些方法的原理和优缺点，对于设计科学、可行的调查方案至关重要。

024：代理应答

概述

在本节中，我们将探讨调查数据收集中的一个重要环节：代理应答。我们将了解什么是代理应答，分析其潜在的优势与劣势，并讨论代理应答与自我报告在数据质量上的差异。核心概念将通过定义和研究结论进行阐述。

什么是代理应答？👥

上一节我们讨论了访问员在访谈前的任务，包括选择受访者。一个相关的选择问题是代理受访者的使用。

当选择程序确定的受访者当时无法接受访问时，一些调查或调查机构会允许访问员与另一位在场的家庭成员进行访谈，此人将作为代理受访者，代表选定的受访者回答问题。而其他一些调查或机构则不允许代理应答。

代理应答的优缺点 ⚖️

普遍观点认为，代理应答的数据质量可能较差。然而，许多知名机构确实使用代理。以下是代理应答的一些主要优缺点。

优点

降低成本与时间：当选定受访者无法联系时，使用代理可以减少时间和费用。例如，美国主要的政府劳动力调查《当前人口调查》通过使用代理，成本降低了约12%。
提高回答率：如果选定受访者不在，但有代理可用，这不会降低调查的回答率。

缺点与数据质量考量

普遍观点认为，受访者关于自身的报告优于代理报告。代理与受访者本人的回答过程可能存在差异。

依赖知识类型不同：代理更可能依赖对选定受访者的一般性知识，而非基于具体事件。人们在回答关于自身实际行为的问题时，比回答关于他人的问题更准确。代理倾向于使用关于目标受访者的语义知识或倾向性知识，而非基于自身生活事件来回答。
回答策略不同：代理更可能使用估计而非回忆。他们基于所回答对象的普遍特征来估算问题的答案，而不是回忆具体行为，因为他们不了解实际情况。
时间信息准确性：对于事件发生日期的信息，代理在思考他人参与事件的日期时，可能不如思考自己参与的事件时准确。
动机差异：为自己回答与为其他家庭成员回答，可能影响提供最准确答案的努力动机。代理报告者可能因为不是回答关于自己的问题而动机不足。
社会期望偏差：代理可能较少受到社会期望偏差的影响。例如，对于吸烟等 stigmatized 行为，本人可能倾向于美化事实，而配偶回答关于丈夫的问题时可能更真实。
沟通程度的影响：代理报告的准确性可能受代理人与目标受访者之间沟通程度的影响。家庭成员之间可能更了解彼此，因此家庭成员作为代理可能比室友等沟通较少的居住安排更为准确。

研究证据与实验设计 🔬

Jeffrey Moore 在1980年代的一篇综述论文研究了“自我报告数据质量优于代理报告”这一假设，他发现文献中支持此假设的证据很少。

他指出，当时许多比较代理与自我报告质量的研究是观察性的，而非实验性的。受访者没有被随机分配为自我报告者或代理报告者，而这正是评估数据质量所需要的。他观察到，表面上的数据质量差异，可能实际上是事实差异。例如，在健康研究中，代理报告的家庭成员健康事件（如看医生）少于他们为自己报告的事件。但这可能是因为在家的、可担任代理的人，本身可能因健康原因更常在家，而不在家的选定受访者可能更健康（如在上班）。因此，差异可能源于健康状况的真实不同，而非报告质量。

Moore 强调需要进行控制实验，即随机分配家庭成员作为代理或自我报告者。

近期实验研究示例

近期，一些 Moore 所呼吁的实验研究已经开展。Schwartz 和 Wellins 的研究是一个很好的例子。

该研究基于社会心理学中观察者与行动者的区别。他们预测，如果参与者被随机分配为代理或自我报告者，那么：

自我报告应反映出行为的不一致性和对常规的偏离，因为回答者了解自己生活中的这些例外情况。
代理报告则更可能基于对他人常规行为的了解进行回答。

为了验证自我报告者比代理报告者答案变异性更大的假设，他们让24对伴侣报告自己或伴侣的典型行为频率（例如，从大学图书馆借书的次数），并评估在前一个月中该行为的最高和最低周频率。

研究结果表明，对于所有测试的行为，自我报告者的最高与最低频率之间的范围都大于代理报告者。这支持了代理可能无法像自我报告者那样意识到常规例外的观点。

总结 📝

在本节中，我们一起学习了代理应答的相关知识。

访问员的非访谈任务会影响调查误差的所有来源。在招募环节，访问员的成功率和说话方式可能影响回答率和无回答误差。在户内抽样环节，不同方法在选择概率的明确性、侵入性和效率上各有不同。

关于自我报告与代理报告：

自我报告者和代理报告者使用的回答过程似乎不同。
在决定是否使用代理代替自我报告者时，需要综合考虑成本、无回答误差和测量误差。

接下来，我们将转向访问员实际使用的访谈技巧。在完成所有这些访谈前的准备工作后，就是时候进行正式访谈了。我们接下来将探讨不同的访谈技巧及其对数据质量的影响。

025：方法、社调问卷设计、抽样、缺失数据、分析：3.2.1 标准化辩论：措辞与语义 📝

在本节中，我们将探讨调查访谈中的一个核心议题：标准化访谈。我们将了解什么是标准化访谈，它为何被广泛使用，以及围绕其利弊的辩论焦点。特别是，我们将对比“标准化措辞”与“标准化语义”这两种不同的理念。

标准化访谈的定义与原理

上一节我们介绍了访问员在正式访谈前需要进行的活动。本节中，我们来看看访谈本身。目前，在科学调查机构中最常见的访谈方法被称为标准化访谈。

其基本理念是控制访问员使用的措辞，确保他们从一个访谈到下一个访谈都以完全相同的形式提出问题。如果受访者的回答不属于预设的答案类别，访问员会使用所谓的中立或非引导性追问，以避免向某些受访者提供额外的实质性信息，而其他受访者则没有获得这些信息。

采用标准化措辞有充分的理由，但有时也可能需要允许访问员在某些场合选择自己的措辞。

关于标准化的辩论

围绕标准化一直存在一场辩论：是确保访问员在访谈中使用的措辞完全相同更好，还是确保受访者对问题的理解相同更好？这就是辩论的核心。

另一个区别在于正式与个人化的访谈风格。个人化风格旨在通过允许访问员更人性化、与受访者建立联系，来增进访问员与受访者之间的融洽关系。

首先，我们来探讨标准化辩论。什么是标准化访谈？它为何被如此广泛地使用？

至少一个关键的理论依据是统计学的：为了最小化与访问员相关的误差。我们将在下一个主题中讨论与访问员相关的误差。其理念是，如果所有访问员的行为彼此一致，那么除了回答本身固有的误差外，他们不会引入额外的误差或方差。这就是标准化访谈背后的基本原理。

标准化访谈的实施方式

访问员行为在不同访谈间保持一致，是通过以下方式实现的：

以下是标准化访谈的具体操作规范：

以相同语速提问：建议语速为每秒两个词。
使用中立追问：当受访者的回答不符合预设答案时，使用如“让我重复一遍问题”这样的中立追问，以减少向不同受访者提供不一致的额外信息。
按顺序提问：必须按照问卷上的顺序提问，以确保不同受访者面对的问题背景相同，从而使回答具有可比性。
询问每一个问题：即使受访者之前已经主动提供了相关信息，访问员仍需提问，因为受访者可能不会按访问员预期的方式回答。
保持专业姿态：避免做出可能被受访者解读为批评、惊讶、赞同或不赞同的陈述。

然而，标准化访谈最核心的方面是：问题必须用完全相同的词语来传达。

标准化措辞的重要性示例

这里有一个例子说明为何这是关键做法。假设一个问题最初是这样写的：“您主要通过以下哪种方式了解本国时事新闻：广播、报纸、电视，还是与人交谈？”

访问员可能会省略这些答案选项，将其变成一个开放式问题：“您主要通过什么方式了解时事新闻？” 这从根本上改变了问题。如果不一致地这样做，首先这很可能不是设计者的本意，其次回答结果将不可比。
或者，访问员可能会加入自己对问题的理解：“您主要通过以下哪种方式了解本国时事新闻：广播、报纸、电视，还是与人交谈？也就是说，您最依赖哪一种？” 原始问题并没有问“最依赖哪一种”，它问的是“主要通过什么方式”。访问员通过添加词语，实际上改变了问题的意图。

中立追问的使用

如前所述，当受访者对封闭式问题的回答不符合预设答案类别时，访问员被指示从一组非引导性或中立的追问中选择使用。

以下是访问员可能使用的中立追问示例：

“还有其他吗？”
“是的。”、“我明白了。”或“嗯。”（以期待的语气，然后停顿）
“我可以把我记下的内容读给您听，以确保我准确记录了您的意思吗？”
“您这么说是指什么？”
“您能说得更具体一点吗？”
“哪一种最接近您的感受？”

此外，还有另一组通常用于受访者表示不理解或需要澄清时的中立追问。当然，具体的追问方式和实践因调查机构而异。

以下是另一组用于澄清的中立追问示例：

“抱歉，我没有这方面的信息。”
“重要的是，请尽可能按照问题的表述来回答。”
“也许我可以再读一遍给您听。”（即重复问题）
“就按您理解的意思回答。”

仔细思考，这些不同的中立追问实际上并不一定是完全中性的，它们可能向受访者传达了某种指令。特别是，“就按您理解的意思回答”这句话可能向受访者传递了其他追问所没有的信息。请思考这一点，并将您的想法发布在讨论板上。

对标准化措辞的主要批评

这种方法的主要批评是，它阻止或阻碍了所谓的对话基础，这是赫伯特·克拉克及其同事提出的概念。

基础的理念是，在日常对话中，说话者和听者会进行多轮交流，直到他们就当前任务、当前目的达成足够相互理解为止。这是一种常见情况：你可能不理解说话者刚刚说的话，你可能会问“您这么说是指什么？”，然后说话者通常会告诉你她的意思。

如果这在标准化访谈中被允许，将导致不同访谈间的措辞出现差异。一些受访者会要求澄清，访问员会提供解释，而另一些则不会。这样，一些受访者获得了额外的信息，而另一些没有，确切的刺激因素就不再是恒定的。因此，其理念是回答将不再具有可比性。

另一种方法：标准化语义

另一种方法是标准化语义，即促进统一的理解，而不仅仅是标准化的措辞。这应该成为目标。其理念是，对话基础使之成为可能。如果这成为实践，它应该促进有效的而不仅仅是可靠的回答。也就是说，它应确保受访者理解问题背后的意图，而不仅仅是在不同场合以相同方式解释问题。后者是标准化措辞倾向于实现的目标——在不同场合产生相同的解释，但它并没有真正解决“这种解释是否是设计者所意图的、是否有效”的问题。

允许对话基础引入访谈，应该能促进有效的理解，即对问题的预期解释，因为它允许访问员解释问题背后的意图和概念的定义。

标准化访谈与日常对话的冲突

这些批评在文献中存在已久。例如，萨奇曼、乔丹和谢弗等人指出，调查访谈，特别是标准化访谈，由于多种原因与正常的对话实践相冲突。

以下是标准化访谈与日常对话的主要冲突点：

话题由一方决定：访问员决定了对话的主题，这在日常对话中很少见。
无法进行基础对话：访问员不能像我们刚才讨论的那样进行如“基础”这样的对话过程。
对话范围受限：受访者不能自由询问问卷之外的内容，对话的范围由访问员决定。
对话结束由一方决定：访问员决定对话何时结束（例如说“非常感谢，我们完成了”）。这些在日常对话中都不会发生。

因此，问题的核心在于：即使正常对话有时可能促进对问题更准确的理解，从而获得更准确的答案，但这能否抵消它可能引入的措辞差异增加所带来的影响？

何时需要标准化？何时不需要？

在思考是否应在调查访谈中模拟日常对话时，一个需要考虑的问题是：我们何时需要这样做？标准化措辞何时能真正导向预期的解释，何时又不能？

当然，如果所有受访者都以预期的方式解释问题，那就没问题。例如，如果一对已婚夫妇带着两个年幼的孩子住在房子里，没有其他人常住，那么“这所房子里住了多少人？”这个问题就很直接。

但在受访者不知道应该包括或排除什么的情况下呢？如果一个孩子在外地上大学怎么办？如果一个保姆大多数晚上都睡在房子里怎么办？在外地上学的孩子应该被计算在内吗？保姆应该被计算在内吗？这很难确定，并且在严格的标准化访谈中也很难澄清这一点，因为访问员有义务使用非引导性或中立的追问，例如“让我重复一遍问题”。

本节总结

本节课中，我们一起学习了标准化访谈的核心概念与辩论。我们了解到，标准化访谈旨在通过统一措辞来最小化访问员引入的误差，但其批评者认为这阻碍了自然的对话基础，可能影响问题的有效理解。辩论的焦点在于，是应该优先保证措辞的完全一致，还是应该追求语义理解的统一。下一节，我们将转向一系列实证比较，看看当访问员能够或不能够澄清问题意图时，这两种访谈方法对回答准确性的影响。

026：标准化访谈的不同路径 📊

在本节中，我们将探讨标准化访谈的替代方法，特别是被称为“对话式访谈”的技术。我们将通过实证研究，比较严格标准化访谈与对话式访谈在准确性、时长和实际应用方面的差异。

概述

访谈是收集调查数据的关键环节。传统上，标准化访谈要求访员严格按照问卷措辞提问，并使用中性追问。然而，当问题对受访者而言含义模糊时，这种方法可能导致回答错误。本节将介绍一种替代方法——对话式访谈，它允许访员澄清问题的含义，并分析其利弊。

实证比较：标准化与对话式访谈

已有许多实证研究比较了严格标准化访谈与替代方法。其中一种重要的替代方法是“对话式访谈”，访员可以在访谈中澄清问题中词语的具体含义。

早期实验室研究

Schober和Conrad于1997年进行了一项开创性研究。他们让访员使用两种访谈技术之一，向实验室中的受访者提问12个来自美国政府调查的问题：

标准化程序：访员严格按问卷措辞朗读问题，只能使用中性追问，实质上不能偏离脚本。
灵活访谈（后称对话式访谈）：访员最初按措辞朗读问题，但鼓励受访者就问题含义提问。如果受访者提问，访员可以澄清词语和问题的含义。

研究设计：受访者基于虚构情境而非自身生活来回答问题。这样设计是因为研究者知道每个情境基于调查机构的定义所对应的“正确答案”。

复杂情境：一半的情境使问题变得模糊不清（例如，“购买落地灯”是否算作“购买家具”？），在没有定义的情况下，答案不明确。
直接情境：另一半情境则清晰明了（例如，“购买桌子”显然属于家具），无需定义。

研究发现：

对于直接情境：无论使用哪种访谈技术，回答准确率都接近100%。标准化访谈足以产生高质量的回答。
对于复杂情境：
- 标准化访谈的回答准确率很低，仅为27%。
- 对话式访谈（允许澄清含义）的回答准确率则高达近90%。

这表明，在访谈中进行对话式“意义 grounding”（即澄清含义）能显著提高受访者的理解和回答准确性。

权衡：准确性与时长

然而，对话式访谈也有代价：更长的访谈时间。
在该实验室研究中，对话式访谈的中位时长是标准化访谈的约三倍。这是因为澄清过程需要时间，访员需要向受访者解释问题的意图、定义及相关部分。

需要注意的是，该研究中有一半问题需要澄清。在真实的非实验室访谈中，这类情况可能较少，因此时长的增加可能不会如此显著。但这揭示了一个核心权衡：

对话式访谈能产生更高的回答准确性。
标准化访谈则更省时，在固定成本下可能完成更多案例。

研究者需要根据具体情况决定：真实世界中需要澄清的复杂情况有多频繁？可容忍的误差是多少？如果误差影响不大，那么使用更耗时、更昂贵的对话式技术可能不值得。

后续研究：真实世界的频率与访员行为

全国样本的再访研究

Conrad和Schober进行了一项后续研究，探讨在真实世界中，需要非脚本澄清的情况发生的频率。
他们对一个全国样本的受访者进行了再访（首次访谈均为标准化访谈）。约一周后：

一半受访者再次接受标准化访谈。
另一半受访者接受对话式访谈。

研究逻辑：如果对话式再访纠正了首次标准化访谈中未被纠正的误解，那么受访者在第二次访谈中会更多地改变答案。如果两次都是标准化访谈，误解将持续存在，答案改变会更少。

研究发现：

首次标准化访谈与后续标准化访谈之间的回答改变率为 11%。
首次标准化访谈与后续对话式访谈之间的回答改变率为 22%。

这11%的差异被作者视为能从澄清中受益的“复杂情况”的发生频率（至少对于该样本的这些项目而言）。研究者需要判断，这个频率是否高到值得投入对话式访谈可能带来的额外时间。在此研究中，对话式访谈时长增加了约80%（低于实验室研究中的3倍），这显然与需要澄清的情况数量（11% vs 50%）有关。

访员的实际行为：标准化程度如何？

一个关键问题是：标准化访谈在实际中到底有多“标准化”？访员是否真的只使用中性追问？
Schober, Conrad和Fricker进行了一项实验室研究，指示访员按“平常的做法”进行（称为“自然条件”），并使用与1997年研究相同的问题和情境。

研究发现：

总体而言，“自然条件”下的回答准确性与原始研究中的标准化访谈条件非常相似。
但是，当单独分析访员偏离脚本（推测是为了解释问题意图）的互动时，其回答准确性则与原始研究中的对话式访谈条件非常相似。

具体数据对比显示：

对于直接情境，准确率接近100%。
对于复杂情境：
- 当访员严格遵守脚本时，准确率很低，与原始标准化访谈结果一致。
- 当访员偏离脚本时，准确率大幅提升至80%，更接近原始对话式访谈的结果。

这表明，即使受过标准化训练，访员在可能的情况下，几乎会自然而自发地提供澄清，尽管他们的训练要求他们只使用中性追问。

总结

关于标准化的辩论可以总结如下：

准确性提升：与标准化访谈相比，对话式访谈能显著提高回答准确性（在原始研究中差异近60个百分点）。这在问题含义模糊时尤其有效，因为对话式访员可以澄清问题中术语的含义。
时间成本：澄清含义需要时间，涉及额外的对话轮次，因此对话式访谈的时长几乎总是比严格标准化访谈更长。
实际行为：即使被要求只使用中性追问，当标准化访员自发澄清含义时，所带来的益处与明确指示他们这样做时是相当的。

过渡到下一主题

在下一个也是关于访谈技术的最后一个小节中，我们将讨论一个不同的区分：正式与个人化访谈风格的区别。这种区别与我们本节讨论的标准化程度问题实际上是相互独立的，其核心在于访员是试图与受访者建立个人联系，还是保持一种专业距离。

027：个人化与正式化风格：访员亲和力

概述

在本节中，我们将探讨访员在访谈中采用的两种不同风格：个人化风格与正式化风格。我们将分析这两种风格如何影响受访者提供的数据质量，特别是准确性和社会期望偏差。同时，我们将深入探讨“亲和力”这一核心概念，了解它如何建立以及它如何在不同敏感度的问题上影响受访者的回答。

个人化与正式化风格的定义

上一节我们讨论了标准化访谈与会话式访谈的区别。本节中，我们来看看访员风格的另一个重要区分：个人化风格与正式化风格。

个人化风格：访员尝试与受访者建立个人联系，表现出人际互动中的投入感。访员可能会提供反馈，例如说“那对你来说真好”或“我也有类似感受”。
正式化风格：访员保持一种专业、公事公办的态度，不试图与受访者建立个人层面的连接。

需要强调的是，个人化/正式化 与 标准化/会话式 是两组相互独立的概念。一次访谈可以是正式但非标准化的（即不照本宣科但态度专业），也可以是会话式但非个人化的（即澄清问题含义但不建立个人连接）。

戴克斯特的研究：风格对数据质量的影响

戴克斯特及其同事通过实验研究了这两种风格。在他们的研究中，访员被随机分配使用个人化或正式化风格。

以下是戴克斯特评估数据质量的两个主要维度：

准确性：通过要求受访者绘制家乡地图的准确度来衡量。公式可以表示为：
地图准确性 = (正确绘制的要素数量) / (地图总要素数量)
预测是，个人化风格能激励受访者更努力，从而提供更准确的地图。

社会期望偏差：通过简版的“马洛-克罗恩印象管理量表”得分来衡量。得分越高，表示受访者越倾向于提供符合社会期望的答案（即取悦访员）。担忧在于，个人化风格可能导致更高的社会期望偏差。

研究结果如下表所示：

访谈风格	地图准确性（均值）	社会期望偏差得分（均值）
个人化	较高	较低
正式化	较低	较高

结论：个人化风格带来了更高的回答准确性，并且没有导致更高的社会期望偏差。实际上，在个人化风格下，受访者更愿意报告一些社会期望度较低的行为（即更诚实的答案）。

亲和力的作用与相关研究

个人化风格提升数据质量的机制，似乎在于建立了“亲和力”。亲和力是指访员与受访者之间建立的融洽、信任关系。

早期研究对亲和力的定义和效果莫衷一是。例如：

希普斯利认为亲和力源于人口统计学上的相似性（如年龄、种族、教育背景相近），这能减少社会距离，促进诚实回答。
但后续一些研究发现亲和力与数据质量关系不大，甚至可能损害准确性。

近期研究提供了更清晰的视角：

人口统计学相似性的影响：约翰逊等人的研究发现，即使是在电话访谈中，访员与受访者在年龄、性别、种族、教育上的重叠度越高（社会距离越小），受访者披露不良行为（如吸毒）的比例就越高。这表明相似性可能促进更坦率的回答。
非语言行为的影响：福考尔等人的研究发现，受访者感知到的亲和力高低，与访员的非语言行为显著相关：
- 亲和力高时，访员微笑和点头更多。
- 亲和力高时，访员直接注视受访者的时间更少。
- 高亲和力也使得受访者的答案更符合问题格式要求，表明他们更努力作答。

问题敏感度的调节作用：孙的研究探讨了问题敏感度是否影响亲和力的效果。她将问题按敏感度分为高、中、低三级。
- 发现：高亲和力促进了受访者对中度和高度敏感信息的披露。
- 但是，对于高度敏感的问题，高亲和力也导致了更高的项目无回答率（即拒绝回答）。这可能是因为当受访者与访员关系较好时，更不愿意透露那些令自己蒙羞的信息。

总结

本节课中我们一起学习了访员个人化与正式化风格的区别及其对数据质量的影响。

核心结论：个人化风格（相对于正式化风格）能激励受访者提供更准确、更坦率的答案，且不会增加取悦访员的社会期望偏差。
作用机制：个人化风格主要通过建立亲和力来提升数据质量。
亲和力的来源：亲和力既可能来自访员与受访者之间的人口统计学相似性，也可能来自访员积极的非语言行为（如微笑、点头）。
复杂情况：亲和力对数据质量的影响并非绝对正面。对于高度敏感的问题，高亲和力在促进部分人坦白的同时，也可能导致更多人选择拒绝回答。

总而言之，访员的访谈技巧能够增加数据收集的价值，但其中也存在权衡。同时，访员也可能引入误差，即“访员效应”，这将是我们下一个主题的内容。

028：访员行为变异 📊

在本节中，我们将探讨访员在调查中可能引入的一种特定误差——访员效应。具体来说，我们将重点关注由访员行为差异导致的效应，这种效应会体现在调查数据的方差增加上。

访员的价值与潜在误差

上一节我们讨论了访员在提升调查质量方面的多种价值。访员能够提高相对于自填式问卷的应答率，可以在允许的情况下解释问题含义，并执行诸如户内抽样等自填式调查难以完成的任务。因此，访员是一项良好的投资，长期来看有助于产生更高质量的数据。

然而，访员也可能引入自填式调查中不存在的误差，这些误差被称为访员效应。访员效应主要分为两类，每一类都有其专门的研究文献。第一类似乎源于访员的行为差异，表现为由访员引起的方差增加。第二类则源于访员的固有属性（如种族、性别、年龄），表现为方向性误差或偏差，例如，受访者在回答与性别相关的问题时，对女性访员可能给出更多支持女权主义的回答。我们关于访员讨论的最后一个主题就是访员效应，首先我们将关注由访员行为引起、并反映在访员方差上的效应。

访员行为变异的概念

当在调查数据分析中将访员作为一个因素或项纳入时，访员对总方差的贡献通常归因于不同访员之间的行为差异，即他们如何实施问卷调查。例如，一位访员可能比另一位访员引发出更多“强烈反对”的回答，而另一位访员可能引发出更多“强烈赞同”的回答。

为了更直观地理解，请看下图。左侧图表描绘了真实值（红色靶心）和由多位访员提问得到的个体回答（黑色小圆点）。这里没有明显的聚集，黑色圆点似乎以随机方式分布在真实值周围。但在右侧图表中，同样以红色靶心代表真实值，可以清楚地看到回答的聚集现象。不同颜色代表不同访员，你可以看到，不同访员从他们恰好访问的受访者那里引出了不同范围的答案。这通常不是我们希望发生的情况。理想状态下，由谁提问不应该影响答案。因此，如果不同访员引出了不同范围或分布的答案，这通常不是数据质量良好的表现。

量化访员效应：ρ_int

那么，如何量化这种聚集现象呢？多年前，Leslie Kish引入了一个度量指标 ρ_int，用于捕捉访员与他们引出答案之间的相关性。这有时被称为组内相关系数，其概念相对直接。

这里需要区分访员间方差和访员内方差：

访员间方差：你希望它尽可能小，因为理想情况下，你希望所有访员对同一问题引出的答案分布非常相似。
访员内方差：这通常是可接受的。你希望一个问题设计得足够好，能够引出一系列答案，因为如果一个问题从所有受访者那里都得到相同的答案，通常认为它的区分度不高。

ρ_int 的计算公式如下：
ρ_int = （访员间方差） / （总方差）
其中，总方差 = 访员间方差 + 访员内方差。

你希望访员间方差为零，但这从未实现。无论经过何种培训，访员总会对总方差有所贡献。这种分析或计算 ρ_int 的前提是受访者被随机分配给访员，这种方法称为交叉渗透设计。如果不是这种情况，那么不同访员引出答案的方差差异，实际上可能源于他们访问的受访者之间的真实差异。但如果实现了随机分配，我们就可以假设所有访员访问的受访者的真实值分布大致相同。

除了量化聚集程度外，测量 ρ_int 的另一个原因是它允许我们计算所谓的由访员引起的设计效应，这有助于我们把握访员在多大程度上夸大了总体方差，从而降低了我们对估计值的置信度。

影响 ρ_int 的因素

由于计算 ρ_int 需要交叉渗透设计（即受访者被随机分配给访员），因此并非每项调查都能计算。但在一项由 O`Muircheartaigh 和 Campanelli 进行的研究中，他们计算了多种问题的 ρ_int，发现：

26% 的态度问题具有显著的 ρ_int 值。
使用李克特量表的态度问题中，33% 具有显著的 ρ_int 值。
研究中 26% 的事实性问题也产生了显著的 ρ_int 值。
他们实际上能够证明，由访员引起的方差膨胀（即聚集效应）与地理聚集效应大致相同。在地理聚集发生在面对面访谈中，当访员被分配或在特定小地理区域内访问受访者时，一位访员引出的答案可能与其他访员引出的不同，但这种效应与 O`Muircheartaigh 和 Campanelli 发现的访员贡献的效应大致相当。

另一项由 Chan 和 Krosnick 进行的研究专门关注犯罪相关问题，他们也考察了不同类型问题的访员效应。他们发现：

对于敏感问题，访员效应大于非敏感问题。
对于非事实性（即态度或意见）问题，访员效应大于事实性或行为性问题。
对于开放式问题，访员效应大于封闭式问题。
对于他们认为困难的问题，访员效应大于简单问题。

他们实际上计算了一个“有害问题属性”指数，这些属性会导致问题变得困难或存在其他问题。他们发现，随着这个有害指数的增加，访员效应也随之增加。这从直觉上是合理的：敏感问题可能更容易受到访员行为的影响；受访者尚未形成明确观点的态度问题，可能对访员提问方式更敏感；开放式问题中，访员提示补充信息的方式可能因人而异；困难问题可能因访员是否以及如何帮助受访者而受到影响。

访员行为与 ρ_int 的关联

那么，是否有具体访员行为与 ρ_int 相关呢？一项由 Mangione、Fowler 和 Lewis 进行的研究发现，访员追问的方式与 ρ_int 密切相关。回想我们关于标准化访谈的讨论，非引导性或中性追问是该技术中允许访员运用自由裁量权的部分，访员可以决定是否追问或使用哪种可用的中性追问方式。很可能正是这种自由裁量权导致了访员方差。

他们通过行为编码分析了访谈录音，发现以下四种行为与 ρ_int 显著相关：

访员正确追问的问题。
访员错误追问（即使用了引导性追问）的问题。
访员未能追问的问题。
访员错误记录答案的问题（这与追问无关）。

其核心思想是，需要更多追问的问题需要访员运用更多自由裁量权，因此不同访员的追问方式会不同，这会放大他们对答案的影响。这与标准化访谈的理念一致，即通过严格限制访员可能的行为范围，可以减少访员对答案的影响（至少以访员方差衡量）。

不同访谈技术的比较

但这并不意味着赋予访员其他类型自由裁量权的替代技术就一定会增加他们对答案的影响或访员方差。标准化访谈的支持者曾认为，偏离脚本会增加访员方差。然而，在 West 及其同事最近的一项研究中，他们比较了标准化访谈和会话式访谈在德国一项全国性面对面调查中的访员方差。他们发现：

会话式访谈在 25% 的问题上提高了数据质量（与我们之前讨论的关于会话式访谈对回答准确性益处的研究结果相似）。
但会话式访谈仅在 10% 的问题上增加了访员方差。
即使访员方差增加，其幅度也未能抵消会话式访谈（通过解释问题含义）带来的质量提升。
此外，他们发现两种访谈技术之间的访员方差相似。
最后，他们发现会话式访谈导致了访谈时长的方差更大（注意：并非总时长更长，而是不同访员之间的时长差异更大）。

这表明，会话式访谈可能在访员间的实施方式差异更大（或许因为涉及更多自由裁量权），但这并未像标准化访谈支持者所担忧的那样增加访员方差。

无应答误差对 ρ_int 的影响

到目前为止，我们讨论的几乎都是访员对答案准确性或质量的影响，这主要是一个测量误差问题。然而，由 ρ 度量的访员效应也可能受到访员招募受访者能力的影响，这实际上是一种由无应答引起的访员效应。也就是说，看似由测量引起的效应，实际上可能反映了不同访员招募了不同类型的受访者，而这些受访者的真实值本就不同。即使在交叉渗透设计（受访者被随机分配给访员）中，如果不同访员从分配给他们的名单中成功招募了不同类型的受访者，也可能发生这种情况。这通常与由提问方式引起的访员效应难以区分。

West 和 Olson 利用行政记录（作为真实值）证实了这种可能性。他们发现：

对于“结婚年龄”这个问题，显著的 ρ_int 源于测量误差（经典的访员效应）。
但对于“离婚年龄”这个问题，显著的 ρ_int 源于显著的无应答误差。不同访员招募的受访者的真实值确实存在差异，这实质上破坏了交叉渗透设计的随机分配前提。

访员效应的设计效应与有效样本量

如前所述，计算 ρ_int 的另一个原因是为了量化访员对整个研究方差的影响。有一个度量指标可以做到这一点，称为由访员引起的设计效应。

由访员引起的设计效应公式如下：
设计效应 = 1 + (ρ_int * (m - 1))
其中，m 是平均访员工作量（即每位访员完成的平均访谈数）。

这个公式表明，访员对总误差的增加程度取决于两个部分：ρ_int 和平均工作量 m。m 越大，任何一位访员的独特行为方式产生的影响就越大。因此，从降低访员影响的角度看，在固定预算下，让更多访员每人完成更少的访谈会更有利。

设计效应的平方根称为设计因子，通常用于讨论标准误。

计算出由访员引起的设计效应后，我们可以计算有效样本量：
有效样本量 = 实际样本量 / 设计效应

这告诉我们，考虑到访员引起的聚类，我们对结果的置信度相当于进行了一个更小样本量的调查。例如，如果实际完成了 1000 次访谈，设计效应为 1.26，那么有效样本量约为 793。这意味着我们的置信度仅相当于进行了 793 次独立访谈。

Groves 和 Magilavy 的一项研究展示了这一点。在他们的表格中，虽然一项调查的 ρ_int 值（0.0067）是另一项调查（0.0018）的三倍多，但由于前者的平均访员工作量更小，最终两者由访员引起的设计效应却大致相同（约1.09 vs 1.10）。这说明，通过控制每位访员的工作量，可以稀释较大的 ρ_int 值对总体精度的影响。

总结与反思

本节课中，我们一起学习了由访员行为引起、并反映在访员方差上的效应。

访员相关误差本质上是访员与他们引出答案之间的相关性。理想情况下，由谁提问不应有影响，因此任何大于零的 ρ_int 值都是不理想的，它表明答案质量存在变异。
ρ_int 是一个有用的间接质量指标，但它衡量的是方差，而非准确性。ρ_int 值低是好事，意味着访员对方差的影响较小。然而，即使 ρ_int 很低，如果所有访员都系统地收集了错误答案，数据质量也可能很低。
访员行为的影响：证据表明，像追问这种脚本化程度较低的行为可能与 ρ_int 相关。但会话式访谈（赋予访员一定自由裁量权）并未被证明比标准化访谈产生更高的访员方差，反而能在许多问题上提高数据质量。
无应答的干扰：ρ_int 可能因无应答误差而膨胀。如果访员招募的受访者真实值不同，即使有随机分配，也可能产生显著的 ρ_int。
控制影响：通过保持较小的访员工作量（即每位访员负责更少的访谈），可以稀释 ρ_int 对总体设计效应的影响。
直接测量的重要性：ρ_int 是数据质量的间接度量。要更直接地了解访员如何影响数据质量，需要考察回答准确性，这通常需要借助记录或其他外部真实值度量，虽然难度更大。

本节我们深入探讨了第一类访员效应——由行为引起、反映在方差上的效应。接下来，我们将转向第二类访员效应，即由访员的固有特征（如种族、性别、年龄）引起的效应。

029：访员固定属性偏倚

概述

在本节课中，我们将学习调查数据收集中的另一种访员效应——访员固定属性偏倚。我们将探讨访员的种族、性别等固定特征如何影响受访者的回答，并了解这些效应在不同调查模式（如面对面、电话）中的表现。

在上一节中，我们讨论了由访员行为差异（如追问时机和效果）所反映的访员效应。我们看到，这种效应似乎源于访员行为，尤其是在标准化访谈中未被标准化的部分。

现在，我们转向方法论文献中提到的另一种访员效应，即由于访员持久或固定的特征（如种族和性别）而导致的回答分布差异。

性别效应研究

一项关于访员性别效应的知名研究由卡娜·麦考利等人完成。他们发现，无论男性还是女性受访者，在面对女性访员时，都会给出比面对男性访员时更为平等的答案。这里的“平等答案”特指那些与性别相关的问题。

具体而言，当访员为女性时，更多男性报告会分担育儿责任。当访员为女性时，更多女性支持女权主义政策。当问题主题与性别无关时，访员的性别则没有影响。因此，这种效应仅出现在与性别相关的问题上。

另一项由赫蒂及其同事进行的研究报告了选举前调查中的多种访员性别效应。在这种情况下，男性与女性受访者表现出相同的访员性别效应。以下是产生访员性别效应的问题示例，即受访者对女性和男性访员的回答在十分制量表上存在差异，这些问题包括：女权主义身份认同、平等角色（如育儿和家务分工）、支持堕胎权、支持平权法案等。因此，对于与性别相关的问题，访员是男性还是女性确实会造成显著差异。

种族效应研究

访员种族效应与性别效应类似，它们仅在问题与种族相关时被观察到，并且通常在面对面访谈中出现。尽管有研究表明，在电话调查中，访员的种族也会影响关于种族问题的回答。

以下哈特和舒曼的研究结果说明了我们所说的访员种族效应。在本案例中，受访者为白人。如图所示，当访员是黑人时，更多受访者赞同特定立场；而当访员是白人时则较少。例如，当提问的访员是黑人时，更多受访者表示不介意自己的亲属与黑人结婚；更多白人受访者表示相信黑人和白人学生应该上同一所学校。当提问此问题的访员是黑人时，表示不会因同阶层的黑人搬入其居住街区而感到困扰的受访者数量，远多于访员是白人的情况。当提问的访员是黑人时，更多受访者表示相信黑人和白人儿童应该自由地一起玩耍。

舒曼和康弗斯的一项研究显示了黑人受访者中类似的模式。当提问的访员是白人时，更多受访者表示可以信任白人、信任大多数白人。当被问及黑人父母是否与黑人老师合作最好时，如果提问的访员是白人，回答“是”的受访者较少；如果访员是黑人，则较多。当被问及最喜欢的娱乐明星是谁时，如果提问的访员是白人，只提及黑人明星的受访者较少；如果访员是黑人，则较多。

前两种效应可能源于一种社会期望偏差，即受访者希望以他们认为能减少冒犯或取悦访员（考虑到访员的种族）的方式来回答问题。第三种效应通常被归因于一种启动效应或刻板印象与信念的激活。仅仅是看到黑人访员的脸，可能比看到白人访员的脸更能让人联想到黑人娱乐明星。因此，这第三种效应可能与社会期望无关，而仅仅是访员特征所引发的联想示例。

效应来源的区分

区分源于社会期望的效应和源于启动或激活的效应是复杂的。克雷森和库珀的一项研究在这方面取得了一些进展。他们让访员在面对面访谈或视频录制访谈中询问与种族相关的问题。他们将视频录制访谈称为“视频ACASI”。这使得我们可以比较面对面访谈中的社会期望效应与视频录制访谈中的刻板印象激活效应。

他们报告的结果模式很复杂，但确实有助于我们区分这类访员效应的两种不同起源。例如，他们报告称，在面对面访谈中，非裔美国人受访者对白人访员报告的种族态度不如对黑人访员时自由，这与我们刚讨论的两项研究结果一致。但在录制访谈中也出现了这种情况。第一种效应可能是社会期望效应。第二种效应则不太可能是社会期望，因为访员是录制的，受访者没有动机去取悦录制的访员。但这可能很像我们在讨论音频ACASI时看到的虚拟电脑动画访员的情况，录制访员的社会存在可能触发了与真人访员相同的反应。

白人受访者对黑人录制访员报告的种族态度比对白人录制访员时更为保守。这也被归因于刻板印象的激活，但模式方向相反。如果模式与非裔美国人受访者显示的方向相同，那么这些白人受访者应对黑人录制访员报告的种族态度比对白人录制访员时更不保守。但作者认为，这是一个黑人录制访员的面孔启动了这些白人受访者关于非裔美国人的现有态度的案例，他们真实、忠实地报告了这些态度，大概是因为他们不受抑制，没有动机在视频录制的访员面前展现自己好的一面。

这些模式的解释可能看起来有些特殊，但如果你提高一个层次来看，所有这些结果都表明，受访者对访员的种族属性高度敏感，无论是真人还是录制的。这项研究有助于区分这种效应的不同起源。

电话调查中的种族效应

目前我们几乎完全集中在面对面或至少是面部特征可见的访谈上，比如录制的视频访谈。那么电话访谈呢？电话调查中是否存在访员种族效应？答案是肯定的。

一个例子来自戴维斯的一项研究，他考察了1984年全国黑人选举研究中的访员种族效应。这是一项针对非裔美国人受访者的电话调查，共有48名白人访员和27名非裔美国人访员。证明存在访员种族效应的发现是一种二阶效应，即两个问题答案之间的相关性：一个关于种族意识的问题，另一个关于对杰西·杰克逊（1980年代民主党总统提名中第一位有竞争力的非裔美国人候选人）的支持。

研究发现，这两个项目之间的相关性在访员是非裔美国人时比访员是白人时更高（虽然不是很高）。其观点是，受访者更可能或更愿意同时报告高种族意识和支持杰西·杰克逊。而对于白人访员，这些非裔美国人受访者会缓和给访员留下的印象。这是在电话调查中发生的，关于访员族裔或种族的唯一信息是通过声音传达的。

受访者对访员种族的感知准确性

戴维斯和西尔弗进行的一项研究与受访者在电话中如何准确分类访员种族的问题相关。他们发现，首先，受访者的判断实际上可能相当不准确。他们正确判断种族的能力在14%（很差）到82%（很好）之间变化。关键发现是，当黑人受访者认为电话中提问的访员是白人时，他们正确回答政治知识问题的数量少于他们认为访员是黑人的情况。作者将此归因于所谓的“刻板印象威胁”，即少数族裔学生在标准化测试中表现比白人学生差，因为他们花费大量努力和精力去反驳他们认为他人赋予他们的负面刻板印象（即他们会表现不佳），结果反而从任务中分心，最终表现不佳。

作者认为，调查中相对常见的知识问题（尤其是政治调查）非常接近标准化测试，因此可能引发刻板印象威胁。重点是，当黑人受访者认为访员是白人时，他们表现更差。这是通过研究人员询问“你认为访员是什么种族？”来确定的。但当作者考虑了访员自我报告的种族后，这种当黑人受访者认为访员是白人时表现下降的效应消失了。这表明，虽然受访者可能很难不根据电话中的信息对访员种族进行分类，但他们并不擅长这样做，因此他们可能会做出相应反应，但触发这些行为的判断实际上是不正确的。

社会距离效应

另一种可能涉及种族的效应是我们已经讨论过的社会距离，它被定义为两个人属性之间的匹配程度，在本案例中是访员与受访者之间的属性匹配。正如你会回忆起的，约翰逊及其同事发现，受访者与访员共享的属性越多（包括种族和族裔），他们报告药物使用的可能性就越大。这项研究也是在电话上进行的。这再次表明，受访者对访员的种族以及其他持久属性很敏感。

约翰逊及其同事表明，访员和受访者彼此共享的属性越多，受访者报告的药物使用（包括终身和近期）就越多。这些属性包括种族和族裔。因此，这再次表明，即使在电话中，受访者对访员通过声音和言语传达的属性（至少是他们认为传达的属性）也相当敏感。

总结

本节课中，我们一起学习了由访员固定属性（如种族和性别）引起的访员效应。

这些属性的影响程度取决于问题是否涉及这些属性。当涉及相关属性时，答案可能会有相当大的偏差。例如，在关于堕胎的问题上，当提问者是女性访员时，更多受访者报告支持堕胎权。这类效应在面对面访谈中比在电话访谈中更强，但在电话访谈中也能观察到，至少在受访者对访员属性的感知准确时能观察到。

正如我们刚刚回顾的，基于人口统计重叠的社会距离会影响信息披露，即使在电话沟通中也是如此。重叠越多，信息披露越多。因此，受访者在构思答案时，确实会察觉并在某种程度上关注这些属性。

除了训练访员尽可能专业地执行问卷外，可能很难从源头上减少这类访员效应，尽管可以通过分析手段加以处理。

030：威斯康星大学Nora Cate Schaeffer教授访谈：招募与访谈

在本节课中，我们将学习调查访谈中两个关键环节：招募与正式访谈。我们将探讨访谈员在这两个不同角色中所需的技能，以及如何通过有效的训练和问卷设计来提升数据质量。

访谈员的双重角色：招募者与提问者

首先，我们探讨访谈员在调查中的第一个关键角色——招募者。这个角色至关重要，因为它直接影响调查的响应率。

访谈员需要在相对即兴的招募互动和高度结构化的标准化访谈之间切换角色。这引发了一个问题：我们是否应该使用不同的专家分别负责招募和访谈？

威斯康星大学的Nora Cate Schaeffer教授认为，让同一个人具备招募和访谈两套技能通常是更可取的。主要原因是，将已表示合作的样本成员转交给另一位访谈员，可能会增加失去合作的风险。然而，目前调查方法领域对于访谈员在招募阶段所需的具体技能清单，认识尚不充分。

以下是访谈员在招募阶段需要掌握的核心技能：

自我介绍：清晰表明身份和来意。
解释调查：有效说明调查的重要性，而不仅仅是“这对我们很重要”。
倾听与回应：准确识别并回应受访者的实际关切，而非预设的答案。
适时退出：当受访者当前不便时，能够以恰当的方式结束对话，为后续联系留下空间。

识别合作线索与调整策略

上一节我们介绍了招募的基本技能，本节中我们来看看如何通过微观互动线索预测合作可能性，并调整策略。

研究表明，受访者在招募对话中发出的特定语言线索，能有效预测其最终是否同意参与。例如，询问“这需要多长时间？”通常预示着接受请求；而询问“你是谁？”或“这是关于什么的？”，则可能预示着拒绝。

这些线索是否可被培训，以帮助访谈员调整策略？Schaeffer教授认为，这是可以训练的。例如，当受访者询问时长时，访谈员应转向解释调查的灵活性（如可分部分完成），而非继续说服。而当受访者询问调查者身份时，这往往意味着访谈员在开场时未能妥善自我介绍。研究表明，一个完整的开场白（如“我是来自威斯康星大学的Nora Cate Schaeffer，我想找Fred Conrad”）能显著减少这类问题，从而提高成功访谈的几率。

电话招募的挑战与模式差异

在电话招募中，访谈员的言语和声音特质显得尤为重要。那么，与面对面访问相比，电话模式是否放大了这些特质的重要性？

Schaeffer教授指出，虽然直觉上声音在电话中更重要，但核心问题可能在于互动结构和双方的“立场”。在传统座机时代，陌生来电有一套可预测的结构。如果来电者不先自我介绍就直接询问“Fred在吗？”，就打破了平衡，容易引起对方反感。

然而，在手机时代，情况可能截然不同。手机是高度个人化的设备，任何在座机上显得侵扰的行为，在手机上都会被放大。许多人会直接忽略陌生来电。因此，调查邀请策略可能需要改变，例如更多地使用短信联系。此外，整个调查设计（如预先通知信）和单次通话中的退出策略也至关重要，目的是在对方拒绝时保持友好，为后续的拒绝转化联系留下可能。

从招募到访谈：标准化互动中的挑战

假设访谈员成功完成了招募，接下来便进入其核心职能——进行标准化访谈。然而，受访者日常的谈话方式与调查要求的标准化格式常存在脱节。

一个典型例子是“叙述式回答”：当访谈员提出一个是非题时，受访者却描述自身情况（例如，问“你上周工作了吗？”，答“我在休产假”）。这通常意味着受访者的情况与问题预设的类别不匹配。

调查研究者为何仍要推动这种“范式化互动”（即受访者严格使用提供的选项作答）？首要原因在于问卷设计。一个设计良好的问题应能减少不匹配。例如，对于“你是否与任何人讨论过临终计划？”这种阈值模糊的问题，可以改写为“你是否曾与任何人，哪怕只有一次，讨论过临终计划？”，以使“是”的标准更清晰。

当出现不匹配时，标准化访谈要求访谈员要么重读问题，要么追问“你会回答是还是否？”。虽然有时这可能引起受访者不快，但在许多情况下，这种做法能有效减少因访谈员自行解释而引入的变异误差。关键在于，当受访者答案与选项不匹配时，调查方应有预设的处理方案（如提供统一定义或由后期编码员判断），而不是由访谈员现场裁决。

为何仍需访谈员：价值与未来

既然网络调查成本更低，为何在官方统计和许多社会科学调查中，我们仍然使用访谈员？

访谈员在以下几个方面具有不可替代的价值：

提高响应率：访谈员通常比邮件或信件更能说服人们参与。例如，在针对大学生的敏感话题调查中，采用网络调查加访谈员跟进的方式，其响应率（约67%）远高于纯网络调查（约17%）。
执行复杂任务：对于耗时较长（如两小时）、包含体格测量或认知测试的调查，需要访谈员在现场协助和引导。
解释复杂事项：对于需要链接社保记录等复杂知情同意的研究，访谈员能更好地进行解释和沟通。
实施住户内抽样：在需要对住户内成员进行随机抽样的设计中，目前仍高度依赖访谈员来执行这一复杂程序。

尽管网络调查在发展，但在可预见的未来，访谈员在确保数据质量、特别是应对无响应和复杂设计方面，仍将扮演关键角色。

总结

本节课中，我们一起学习了调查访谈中招募与正式访谈两个阶段的核心内容。我们探讨了访谈员需要具备的双重技能，识别受访者合作线索的方法，电话招募的独特挑战，标准化访谈中如何处理应答不匹配的情况，以及尽管存在成本更高的缺点，但访谈员在提升响应率、执行复杂任务等方面依然具有不可替代的价值。理解这些原则，有助于我们更好地设计和实施高质量的调查数据收集工作。

031：新模式与新数据 📱📊

在本节课中，我们将学习新兴的数据收集方法以及新的数据来源。我们将探讨移动网络调查、短信访谈、智能手机上的多模式调查，以及如何利用智能手机辅助数据、行政记录和社交媒体数据来补充甚至替代传统的问卷调查数据。

上一节我们介绍了课程的整体框架，本节中我们首先来看看移动网络调查。

移动网络调查本质上是在智能手机等移动设备上完成的传统在线问卷调查。随着智能手机的普及，这种方法变得日益重要。例如，皮尤研究中心的数据显示，72%的美国成年人拥有智能手机。

移动网络调查的实现主要有两种方式：基于浏览器和基于应用程序。

基于浏览器：受访者使用智能手机自带的浏览器访问在线问卷。如果系统能捕获用户代理字符串（一段标识设备和操作系统的文本），问卷界面就可以针对移动设备进行优化，从而提升用户体验和数据质量。
基于应用程序：受访者需要下载一个专门用于研究的应用程序。这类应用天生为移动设备优化，但要求用户预先安装。

移动网络调查与传统网络调查在几个关键方面存在差异：

屏幕尺寸：移动设备的屏幕通常更小。
用户输入：移动设备主要通过手指触屏，而传统电脑使用鼠标或键盘。
使用情境：移动网络调查的受访者可能不在家，处于多任务处理或受环境干扰的状态，甚至周围可能有他人，这可能影响其对敏感问题的回答。

移动网络为调查设计带来了新的机遇和挑战。

机遇包括：

灵活性：受访者可以在更多场景下完成调查。
覆盖范围：可以接触到“仅使用手机”的用户群体。
抽样：可以利用随机数字拨号等方法，通过手机号码进行概率抽样。
额外数据收集：可以利用手机的GPS、摄像头等功能收集除自我报告以外的数据。

挑战包括：

应答率：研究表明，通过智能手机参与调查的应答率通常低于通过个人电脑。
中断率：在移动设备上，受访者更可能中途放弃调查。
情境影响：受访者可能在移动中、被干扰或处于公共场合，这可能影响测量质量。

接下来，我们看看如何邀请受访者参与移动网络调查，以及这对参与度的影响。

邀请方式主要分为短信邀请和电子邮件邀请。研究发现，短信邀请能带来更快的初始响应。例如，在一项研究中，短信邀请发出后一小时内参与率达到21%，而电子邮件邀请仅为11%。短信的即时性和私密性可能是其优势。

然而，关于调查完成度，情况可能更复杂。有研究表明，虽然短信邀请能带来更高的初始参与率，但通过短信开始的受访者，其完成全部调查的可能性可能低于通过电子邮件开始的受访者。此外，调查设计也影响中断率。例如，分页设计（一页一题）可能因为服务器传输时间导致完成时间更长，从而比滚动设计（单页多题，需滚动）带来更高的中断率。

以上我们讨论了移动网络调查在应答和完成度方面的议题。下一节中，我们将转向测量相关问题，包括受访者所处环境、是否多任务处理以及其他设计问题的影响。

本节课中，我们一起学习了移动网络调查的基本概念、实现方式、与传统调查的差异，以及它在覆盖范围、抽样和数据收集方面带来的新机遇。同时，我们也认识到其在应答率、完成度和测量情境方面面临的挑战。理解这些特点对于设计有效的移动端数据收集方案至关重要。

032：移动网络调查 📱

在本节课中，我们将要学习移动网络调查中的测量误差问题。我们将探讨移动设备的移动性、问卷设计（如分页与滚动）如何影响数据质量，并回顾相关研究的主要发现。

移动性与隐私顾虑

上一节我们介绍了移动网络调查的概况，本节中我们来看看移动性可能带来的测量误差问题。移动网络调查意味着受访者可以在任何地点完成问卷，包括户外、旅途中等。这虽然提供了便利，但也可能是一把双刃剑。受访者可能身处非私密的环境，这可能会增加他人看到其对敏感问题回答的风险，从而可能抑制其提供真实、不受欢迎的答案。

研究证据：移动性是否影响回答？

为了探究移动性对回答敏感问题的影响，学者们进行了研究。

以下是相关研究的发现：

Movletova和Cooper的研究发现，45%的移动网络受访者在家庭以外地点完成问卷，而使用传统电脑或笔记本电脑的受访者中这一比例为29%。尽管如此，他们并未发现回答敏感问题时有显著差异。
Antoun的实验也得出了类似结论。他发现，使用移动设备的受访者更常在户外、移动中、切换地点以及进行多任务处理。虽然移动受访者周围有其他人的情况更常见，但这并未影响他们对敏感问题的诚实回答。

问卷设计：分页与滚动 📄

一个被广泛研究的移动网络问卷设计特征是分页与滚动设计。

以下是两种设计的核心区别：

分页设计：通常每屏（页）只显示一个或少数几个问题。公式可表示为：屏幕数量 ≈ 问题数量。
滚动设计：整个问卷或大量问题呈现在一个长页面上，受访者需要（通常是垂直）滚动来查看所有问题。公式可表示为：屏幕数量 = 1（或很少）。

设计对完成时间的影响

研究表明，设计选择显著影响问卷完成时间。

以下是具体的研究数据：

Movletova和Cooper发现，分页设计平均耗时9.1分钟，而滚动设计仅需约4.5分钟，时间缩短了近一半。
Toepoel和Lugtig的研究也发现了类似效应，分页设计下每个问题耗时59秒，而滚动设计为43秒。因此，滚动设计通常速度更快。

时间差异的原因与数据质量

对于滚动设计更快的原因，一种解释是分页设计需要为每个新页面加载数据，受网络连接速度影响，从而增加了总耗时。但重要的是，这种完成时间的差异似乎并未影响回答质量。

以下是相关研究的佐证：

Toepoel和Lugtig发现，分页与滚动设计在回答分布上没有差异，也没有证据表明滚动设计导致了“首位效应”（即受访者总是选择第一个看到的选项）。
Peytchev和Hill的早期研究也支持这一结论。他们测试了在屏幕上一次只显示3个选项（需滚动查看其余2个）与显示全部5个选项的设计，并未发现对最初可见选项的偏好偏差。

响应过程的相似性 🧠

综合多项研究，一个普遍结论是：移动网络调查与传统网络（PC端）调查的响应过程非常相似，甚至与其他调查模式（如电话访问）的已知效应一致。

Peytchev和Hill的研究成功复现了其他模式中已知的问卷效应，这支持了响应过程相似的观点。

以下是他们复现的两个经典效应：

问题顺序效应（互惠规范）：他们更新了Schuman和Presser的经典研究，发现当先询问“伊朗总统是否应在美国演讲”再问“美国总统是否应在伊朗演讲”时，对后者的支持率（57%）显著低于先问后者时的支持率（84%）。这表明移动设备上同样存在基于问题顺序的推理过程。
量表范围效应：他们复现了Schwartz的电视观看时间研究。当使用“低频备选量表”（如从“0.5小时”开始）时，只有14%的人选择“超过2.5小时”；而当使用“高频备选量表”（如从“2.5小时”开始）时，44%的人选择“超过2.5小时”。这表明移动设备受访者同样会依据量表的视觉位置而非具体数值来选择答案。

移动设备的独特挑战与证据

尽管基本响应过程相似，但移动设备的某些特性仍可能影响测量质量。Antoun的交叉设计研究（同一受访者先后使用移动设备和PC完成相同问卷）提供了更深入的洞察。

以下是该研究的关键发现：

无差异的方面：在“满足感”（如直线勾选、对多个问题给出相同答案、首位效应）和敏感信息披露方面，移动设备与PC没有显著差异。这再次证实，即使移动受访者身处更多干扰环境，也并未抑制其诚实回答。
数据质量较低的方面：在报告年龄和出生年份时，移动设备的数据准确性低于PC。Antoun认为，这可能是由于在移动设备小屏幕上使用滑块和日期选择器等输入控件需要更高的操作精度，从而导致了更多错误。屏幕尺寸小似乎是导致此类测量误差的关键因素。

早期“非预期”移动受访者

在移动网络调查早期，许多问卷并非为移动设备优化，通过移动设备访问的受访者被视为“非预期的”。

Bosnjak等人的元分析总结了以下关于这类“非预期”移动受访者的特点：

平均参与率约为5.8%。
更年轻、男性受访者使用移动设备的可能性更高。
由于设计未针对小屏幕优化，移动设备的中断率高于桌面设备。
尽管中断率更高，但移动受访者在中断前完成的页面数反而更多，这可能意味着他们起初有更强的完成动机。

总结与展望

本节课中我们一起学习了移动网络调查在测量误差方面的主要研究发现。

以下是本节的要点总结：

覆盖与接触：智能手机和平板电脑的覆盖率正在快速增长，对于某些缺乏家庭互联网的群体是重要补充。短信（SMS）作为接触方式前景良好，但可能受法律限制。
测量误差：总体而言，没有强有力证据表明移动网络与传统网络调查在个体回答质量（测量误差）上存在系统性差异。基本响应过程是相似的。
设计关键：核心设计挑战在于创建同时适用于小屏幕和大屏幕的问卷与测量项目。小屏幕可能对某些输入方式（如滑块）的准确性构成挑战。
适用场景：移动网络可能更适用于简短、基于位置或情境的调查，而非传统的长篇问卷。

下一节，我们将转向讨论短信（SMS）作为一种独立的数据收集或访谈模式，而不仅仅是接触工具。

033：短信调查 📱

在本节课程中，我们将探讨使用短信（SMS）作为数据收集模式的方法。我们将了解短信调查的基本概念、其与语音通信的关键区别、潜在的覆盖误差，以及关于其测量质量的初步证据。

上一节我们讨论了移动网络调查，本节中我们来看看另一种移动数据收集方式：短信调查。短信调查是指使用短信或SMS来直接收集数据，而不仅仅是用于邀请或联系参与者。

首先需要明确的是，短信无处不在。它是全球许多地区日常沟通的主要方式，即使是最基本的手机也支持短信功能。在美国，每月有数十亿条短信被发送，全球范围内则更多。因此，将其作为一种调查模式进行探索是值得的。

什么是短信调查？

“短信”一词可能有不同的解释。它可以是基于字符的消息，在SMS（短消息服务）中限制为160个字符，也可以是基于互联网应用程序的消息，字符数不受限制。这两种形式都在我们当前的讨论范围内。

以下是短信创建和接收的一些关键特征：

输入方式：短信可以通过字母数字键盘或按键创建（通常需要多次按同一个键来输入不同字母），也可以通过智能手机上更常见的虚拟全字母键盘创建。
显示方式：消息可以单独显示，在智能手机上则通常以对话线程的形式显示，使整个交流历史可见。
通知机制：消息到达时，通常会通过声音、振动或视觉通知提醒用户，这能吸引他们的注意力。这是短信用于调查数据收集的一个潜在优势。
服务要求：某些短信服务（如WhatsApp）可能需要收发双方订阅，但由于短信功能内置于几乎每部手机中，许多短信通信可以在不涉及任何订阅服务的情况下进行。

短信与语音通信的属性对比

为了更好地理解短信作为调查模式的特点，我们将其与语音通信（如电话调查）进行对比。下表概括了它们的主要属性：

属性	语音通信	短信
同步性	完全同步。说话者提出问题后，期望听者几乎立即（通常在几秒内）回应。	异步性更强。虽然可以快速来回交流，但回复通常在用户方便时发送，没有对即时回复的同等期望。
对话结构	轮流进行。一人说完，另一人接着说。偶尔会出现同时说话的“抢话”错误。	也是轮流进行，每条消息代表一轮。几乎没有“同时发言”的类似情况，尽管消息偶尔可能不按顺序到达。
持久性	短暂易逝。话一旦说出就消失了，除非被录音，否则没有记录。	持久存在。短信是视觉化的，除非用户删除，否则会保留在手机上。这可能会影响人们提供敏感信息的意愿。
非语言线索	非常丰富。包含大量的副语言特征，如“嗯”、“啊”等，能传达不确定性、强调等。	几乎没有。除非有意输入（如输入“...”），否则几乎没有副语言特征的类似物。
多任务处理	倾向于同时进行。例如，可以一边打电话一边做饭，在某种程度上并行处理任务。	倾向于任务切换。在输入短信时不太可能同时做另一件事，但在发送短信后、阅读回复前，完全可以切换到其他任务。生活常态发生在短信之间。

这些差异可能导致通过短信和语音收集的数据，特别是数据质量，存在不同。

短信调查的覆盖误差

在探讨测量质量之前，我们需要考虑覆盖误差。如果发短信的人与不发短信的人在我们要测量的属性上存在差异，那么我们就会遇到与网络访问类似的问题。

当然，没有手机的人不太可能发短信。但问题在于，在手机用户中，不发短信的人是否与发短信的人在调查关心的属性上有所不同？

Conrad及其同事在一篇重要章节中报告了对此的首次调查。他们分析了皮尤组织的一项电话调查数据，该调查询问受访者是否是手机用户，以及是否发短信，同时收集了人口统计数据。

数据显示，在手机用户中，发短信者与不发短信者在年龄和教育程度上存在一些差异：

发短信者更年轻（34岁以上的比例更低）。
发短信者中大学毕业生比例略高。

但在性别、种族、民族和收入等其他属性上没有差异。问题是，这两个差异是否会影响通过短信收集的答案。此外，手机用户中发短信的比例正在上升且持续增长。随着这一比例接近全覆盖，发短信与不发短信的手机用户之间的差异可能会消失，从而减少潜在的偏差。

短信调查的测量质量

现在，我们转向对短信调查测量质量的讨论，重点介绍一项比较短信和语音数据收集的实验室实验。

（注：原讲义此处未提供实验的具体细节和结论，因此本教程在此处结束对短信调查核心概念的介绍。）

本节课中，我们一起学习了短信调查作为一种数据收集模式的基本概念。我们了解了短信的定义和特征，对比了其与语音通信在同步性、持久性、非语言线索和多任务处理等方面的关键区别。我们还探讨了短信调查可能存在的覆盖误差，即发短信者与非发短信者在人口统计学特征上的差异，并注意到这种差异随着短信普及正在缩小。这些知识为我们评估和设计短信调查提供了重要的基础框架。

034：文本与语音访谈对比 📱🎤

在本节中，我们将探讨文本（短信）作为一种访谈和数据收集模式，并与传统的语音访谈进行对比。我们将重点关注一项关键研究，该研究比较了这两种模式在响应率、数据质量和效率等方面的表现。

概述

上一节我们介绍了移动数据收集的背景。本节中，我们将深入探讨文本（SMS）访谈模式，并将其与语音访谈进行系统比较。我们将基于一项实证研究，分析两种模式在多个维度的优劣。

研究背景与方法

有一项由 Schchoer 等人进行的研究，在文献中直接比较了文本与语音访谈。该研究实际上考察了四种数据收集模式：

两种涉及语音。
两种涉及短信（SMS）。

以下是四种具体模式：

人工语音访谈：由真人访员通过电话进行。
自动语音访谈：由自动化系统播报问题并识别语音答案。
人工文本访谈：由真人访员通过短信发送问题，受访者通过短信回复答案。
自动文本访谈：由自动化系统通过短信发送问题并接收文本答案。

在该研究中，所有参与者均使用 iPhone，确保了设备平台的一致性。参与者通过网络渠道招募并经过筛选，他们知道自己将参与研究，但不知道具体会通过哪种模式进行访谈。

响应率与完成速度

尽管参与者是经过筛选的，总体响应率已经较高，但数据显示，文本模式的响应率显著且稳定地高于语音模式。

以下是可能的原因：

信息的持久性：短信邀请会保留在手机上，调查组织可以确信信息已送达，几乎没有“未接触”的情况。
参与的便利性：文本模式允许受访者在方便时回复，而语音访谈通常要求即时参与，可能不够便利。
决策时间更充裕：收到文本邀请后，样本成员有更多时间考虑是否参与，不像语音访谈那样被“当场要求”做决定。

关于完成速度，研究结果同样明显。下图展示了在发出邀请后一天内完成的访谈比例：

自动文本模式：超过 90% 的访谈在一天内完成。
人工文本模式：超过 70% 的访谈在一天内完成。
两种语音模式：分别只有约 60% 和 50% 的案例在一天内完成。

这表明，文本访谈的样本完成速度远快于语音访谈。

中断率

尽管文本模式的响应率更高、完成更快，但其中断率也高于语音模式。中断指的是在调查期结束时，案例未能完成。

中断率较高的可能原因包括：

社交临场感较低：文本交流缺乏语音，受访者感知不到交流另一端的“代理人”，可能更随意地停止回答。
异步特性：受访者无需立即回复，这种缺乏时间压力的状态可能导致他们无限期拖延，实质上等同于中断。
缺乏人工引导：特别是在自动模式中，没有真人访员来维持受访者的参与度和连接感。

此外，研究还发现：

自动模式的中断率高于人工模式。
文本模式的中断率高于语音模式。
中断的受访者与完成问卷的受访者在人口统计学特征上没有显著差异（除女性中断率略高外），这表明中断不太可能引入人口结构偏差。

数据质量测量

在同一研究中，作者比较了文本和语音模式在数据质量上的几个指标：

1. 敷衍作答
研究者使用了两种衡量敷衍作答的方法：

取整数值答案的频率：对于需要数字答案的问题，回答值能被5整除（如100、95）被视为一种“心理捷径”，可能意味着答案不够精确。公式可表示为：答案 % 5 == 0。
直线式作答：受访者对一系列使用相同量表（如从“强烈赞成”到“强烈反对”）的问题，全部给出相同的答案。研究中，对7个问题中的6个给出相同答案即被视为直线式作答。

2. 敏感信息披露
通过统计“不良回答”的频率来衡量。例如，当被问及“你多久锻炼一次？”时，回答“少于一天”被视为不良回答。在某一模式下此类回答更多，可能表明受访者更坦诚，数据质量更高。

数据质量结果

那么，实际结果如何呢？

首先看敷衍作答：

文本模式下的敷衍作答少于语音模式。
具体表现为：文本回答中结尾为0或5的取整数值更少，直线式作答的比例也更低。
这表明，文本模式产生了更高质量的数据。

关于敏感信息披露：

文本模式下的披露多于语音模式。
同时，自动模式下的披露也多于人工模式，这与计算机辅助自填访谈的优势类似，因为缺乏访员在场可能减少对坦诚回答的抑制。

综上所述，文本访谈在减少敷衍作答和增加敏感信息披露方面都表现更好，这对其作为访谈模式是积极的信号。

访谈效率与特性

在评估文本访谈模式时，还需考虑其一些特性：

1. 访谈耗时更长
文本访谈的总耗时通常比语音访谈长。这是因为文本交流是异步的，受访者可能在问题之间花费更多时间思考，从而导致了更高质量的答案，但也拉长了整体进程。

2. 交互模式不同

文本访谈：模式通常是严格的“问答-问答”形式，效率高，交互简洁。
语音访谈：包含更多非答案性的言语互动和对话轮次，虽然总时长可能更短，但效率相对较低。

总结与展望

本节课中，我们一起学习了文本作为访谈和接触模式的优缺点。

主要结论总结如下：

覆盖误差：文本模式的覆盖误差很小，仅存在年龄和教育程度的轻微差异，且随着手机用户和短信使用者的增长，这些差异未来可能消失。
无应答：文本模式的响应率高于语音，但中断率也更高。
测量质量：多项指标表明，文本模式的数据质量高于语音访谈，包括更少的敷衍作答和更多的敏感信息披露。
效率：虽然单个文本访谈耗时更长，但调查周期更短，样本完成速度更快，尤其是自动文本模式。

关于文本访谈的思考：

适用性：它是否只适合简短的访谈？在研究情境下，参与者有补偿且经过筛选，但普通受访者能否忍受冗长的文本访谈？另一方面，由于其便利性，他们可能比我们想象的更能接受较多问题。
未来发展：文本访谈模式如何演变？例如，现在可以轻松在短信中附加多种媒体（如图片、视频），或使用语音转文本功能。有人曾提议在接触阶段附加真人访员的邀请视频。文本作为调查模式的未来充满可能性，初步证据显示其前景广阔。

本节对移动数据收集（包括移动网络和短信）的讨论到此结束。在接下来的最终主题中，我们将探讨不依赖于自我报告（如回答调查问题）的替代数据来源，例如行政记录或社交媒体数据。

035：记录链接统计问题

概述

在本节课程中，我们将学习记录链接与统计匹配。我们将探讨为何需要链接不同数据源，并重点介绍行政数据与调查数据的区别、各自的优缺点，以及将它们结合使用的价值。

大家好，我是弗罗卡·克罗塔。我是马里兰大学的教授，同时也隶属于密歇根大学。我将为大家讲解关于记录链接同意和统计匹配的内容。

本节材料部分借鉴了德国联邦银行的斯蒂芬·宾达、就业研究所的曼弗雷德·安东尼和亚历山德拉·施默，以及曾在该所、现就职于曼彻斯特大学的乔·萨卡的研究。德国及许多欧洲国家，尤其是北欧国家，在记录链接领域投入很深，因此有很多研究成果可以分享。

本段内容将首先介绍我们试图链接什么以及为什么链接。具体来说，第一部分将涉及行政数据与调查数据的差异，并讨论其优缺点。下一部分将介绍链接技术，并讨论知情同意，这对许多链接工作至关重要。

为何不只用调查数据？

既然在收集数据，为何要考虑使用其他数据源？调查数据的优势在于，它们是专门为你的研究目的设计的，并且经过了本专项课程中介绍的整体调查误差框架的严格审查。

调查数据在获取关于行为、态度等的主观信息方面尤其具有优势，目前在这方面没有太多替代方案。然而，对于行为的客观信息（例如追踪某人的运动情况），情况则不同。这已经揭示了调查数据的一个缺点：受访者往往难以准确报告过去发生的事情，难以记住某些行为。这些记忆和回忆误差将在问卷设计课程中详细讨论。

调查数据的另一个缺点可能是无应答，这在本课程中已详细讨论过。无应答可能发生在单元层面，也可能发生在项目层面。在固定样本调查中，我们称之为样本损耗。

此外，调查的时长有限，你不可能进行一次六小时的访谈来了解受访者过去发生的所有事情（例如一位年长者的整个劳动力市场历史）。通常，收集额外信息会带来高昂成本。

因此，我们的想法是，如果你简化地考虑不同的数据源（这里只展示了三种：调查数据、实验数据和行政数据），那么就有强烈的动机去思考如何链接这些数据源，以获取最理想的信息量。

什么是行政数据？

接下来我们讨论行政数据。实验数据想必大家都很熟悉，我们将重点关注行政数据，因为其链接应用已变得非常突出。

行政数据是指在执行某些行政目的过程中收集的数据。你可以认为这些数据是由公共和私营部门的政府机构生成的。它们记录了所提供的服务和处理的任何事务。

例如：

社会保障记录
通过积极劳动力市场计划或福利计划产生的失业记录
课堂学生记录
税收和收入记录
出生和死亡证明信息

所有这些数据之所以能以数字形式获得，仅仅是因为某项服务或其他行政流程已经发生。目前，特别是在美国，也包括其他国家，都在大力推动更多地利用这些数据、获取访问权限，并在需要时将其与调查数据链接。

这是一张社会保障表格的截图，雇主在有人入职时必须填写。当然，这也在考验你的德语水平。你在这里看到的字段包括姓名、地址信息、通知来源、少量教育背景信息，以及明显的就业类型和工资信息。

现在，花点时间看看这些变量，思考一下：如果我管理社会保障计划，哪些变量真正重要？你可能很快会意识到，工资信息以及雇佣期的开始和结束日期对于日后计算你能获得多少养老金或失业保险金非常重要。

稍后我会再回到这部分内容。

行政数据示例：德国就业研究所

我刚才展示的这些特定行政数据，是德国就业研究所（简称IAB，左上角有其网站信息）收集的更大数据系统的一部分。他们利用所有这些信息（社会保障通知以及其他流程生成的数据）创建了所谓的“综合就业履历”。因此，那里正在进行大量的行政数据源链接工作。

此外，IAB还进行了一系列调查，这两部分都可以链接在一起。所以，如果你想了解更多关于那里可用的大型数据源，或者你从事劳动力市场研究，这可能是一个有趣的资源。

行政数据的特点

从这个例子转向更一般的讨论，行政数据的主要用途并非研究。这是行政数据与调查数据之间一个非常重要的区别，你应该牢记。

行政数据通常也是为某个总体收集的，但这个总体可能不同于传统的调查总体。例如，如果你获得德国的社会保障通知行政数据，其中就不会包含任何自雇者。假设你从某个医疗服务提供者或健康保险组织获得健康记录，他们将只包含加入该特定组织的人员。或者，通过癌症登记处获得被诊断患有特定疾病的人员信息，这很好，你拥有所有患者的数据，但没有未患病者的数据。

因此，虽然这些是总体数据，并且有其用途，但它可能与你研究问题所需的数据不同。

你应该记住的另一点是，你无法像在调查中那样，向行政数据添加特定的测量指标。在调查中，你可以决定加入或排除某些内容，但对于行政数据则不行。不过，对于它们已有的数据，通常是纵向可用的。

使用行政数据的优势

使用这些数据的优势在于，获取和使用它们相对容易且成本较低。当然，前期也存在成本（稍后会讨论），但调查数据同样有前期成本。因此，你可以节省数据收集的资源，这也是我们将此内容纳入本课程的原因。

有时，特别是涉及行为记录时，它们可能比调查数据更准确，并且减少了记忆问题和社会期望偏差（这在问卷设计课程中讨论过）。如前所述，长期信息可能是可用的。

另一个优点是，它们通常包含非常大的样本量，这在调查中实现成本会过高。正因为如此，你可以深入研究到感兴趣的人口子集，这确实可以增强你所做研究的深度。

如果幸运的话，这些数据库会定期更新，有时甚至是持续更新，并且有质量控制检查，因为这是管理特定计划所必需的。

同样，对于计划所关注的人群，覆盖率接近100%，但当然不一定符合你的研究问题需求，正如我们之前讨论的。不过，它确实包含了可能不回应调查的个体，因此结合这些数据源有助于缓解无应答问题。

使用行政数据的劣势

使用行政数据的劣势在于，它们通常不足以回答所有的研究问题。概念可能不同，参考日期可能不同，并且你无法控制其中的所有内容，因此可能需要额外信息，这也是我们主张链接数据源的原因。

此外，这些数据本身并非完美。它们在非计划相关变量上的质量可能很差。回想一下几分钟前我说过，收入和失业信息的开始日期可能相当准确。但是，例如在德国社会保障记录中，教育变量就不是很准确，它们没有更新，与计划无关。

此外，变量定义可能随时间变化。例如，某些疾病的定义或职业分类的代码可能会改变。由于关于数据收集过程的背景元数据和描述通常有限，你可能知道也可能不知道这些变化。

再加上数据规模大、处理成本高（稍后会讨论），以及严格的数据保护法律通常要求获得受访者的知情同意，使用这些数据并非没有挑战。特别是最后两点，我们将在接下来的两节中详细介绍，以便你更多地了解计划使用此类数据时可能面临的情况。

结合两种数据源的优势

让我以倡导结合两种数据源的优势来结束本节。

结合调查数据和行政数据可以为你提供两全其美的方案。你拥有调查数据在定义总体和变量方面的优势，同时在另一边，你拥有通常更准确、更精细的测量信息，覆盖了无应答者和更广泛的总体。

你可以根据你认为哪个数据源的变量质量更高来分别利用它们。当然，你还可以利用整个数据集进行方法论研究，以检验一个或另一个数据源中的弱点。

总结

本节课我们一起学习了记录链接的基本概念。我们探讨了为何需要超越单一的调查数据，引入了行政数据作为重要的补充数据源。我们详细比较了调查数据与行政数据在目的、总体、内容控制、准确性、成本和覆盖范围等方面的优缺点。最后，我们强调了将两者结合使用可以取长补短，为研究提供更丰富、更准确的信息基础，并可用于方法学检验。在接下来的章节中，我们将深入探讨具体的链接技术和关键的知情同意问题。

036：记录链接技术 📊

在本节中，我们将学习如何将不同来源的数据集连接起来，这一过程称为记录链接。我们将探讨几种主要的链接技术，了解它们的工作原理、适用场景以及面临的挑战。

记录链接的核心目标是识别并合并来自不同数据源、但属于同一实体的记录。这在社会科学，尤其是健康科学领域正变得越来越普遍。

精确匹配 🔍

上一节我们介绍了记录链接的基本概念，本节中我们首先来看看精确匹配。

精确匹配基于一个或多个能唯一标识某个实体的变量来建立链接。这个标识符可以是一个单独的变量（如社会保障号），也可以由多个变量组合而成（如姓名、出生日期和出生地）。

其核心思想是确定性的：在数据集A中找到一个记录，通过其唯一标识符，在数据集B中找到完全对应的同一个记录。公式可以表示为：
匹配成功 IF 数据集A.标识符 == 数据集B.标识符

以下是实施精确匹配的关键点：

规划先行：若计划将调查数据与行政数据链接，必须在调查阶段就向受访者收集该行政数据库所需的唯一标识符。
数据质量：此方法假设标识符的记录完全准确无误。任何拼写错误、记忆偏差或格式不一致都可能导致匹配失败。

如果无法获得高质量的唯一标识符，我们就需要转向其他技术。

概率匹配与预测性匹配 🎲

当缺乏完美的唯一标识符时，我们可以使用概率匹配或预测性匹配。这两种技术仍然旨在链接同一实体在不同数据集中的记录，但允许匹配变量存在误差。

概率匹配由Fellegi和Sunter于1969年提出，被统计机构广泛使用。其思路是使用一组可能包含错误的个人属性（如姓名、地址、出生日期）进行链接。

以下是概率匹配的基本步骤：

为属性分配权重：根据每个变量在匹配中的可靠性和重要性赋予不同权重。例如，姓名变更的可能性低于地址变更，因此姓名的匹配权重可能更高。
计算匹配分数：对每个候选匹配对，根据其各个属性的匹配情况（是否一致）和相应权重，计算一个总分。
基于分数决策：设定一个阈值，总分超过该阈值的记录对被判定为匹配。

预测性匹配则更多地借鉴计算机科学领域的技术，如机器学习和信息检索。它同样旨在预测两条记录是否指向同一实体。

预测性匹配主要使用两类机器学习方法：

监督学习：使用已有明确匹配结果的训练数据（即已知哪些是“真匹配”），训练一个模型来预测新记录的匹配情况。这类似于回归技术。
无监督学习：使用聚类或基于图的技术，在没有预先标记的数据中发现可能匹配的记录组。

链接技术面临的挑战 ⚠️

无论采用哪种链接技术，在实际操作中都会面临一系列挑战。

以下是实施记录链接时常见的困难：

数据“脏乱”：现实数据常包含拼写错误、缺失值、过时信息或格式不一致（如姓名的不同书写格式：“Dr. Smith” vs “Smith, John”）。这需要进行大量的数据预处理，如清洗、标准化和解析。
计算复杂度：进行穷举式的一对一搜索（将数据集A的每条记录与数据集B的所有记录比对）计算量极大。通常需要使用分块等技术来缩小搜索范围，例如只在同一城市内进行匹配。
缺乏训练数据：对于许多链接应用，可能没有已知的匹配结果作为训练数据，这使得某些监督学习方法无法使用。
隐私与保密：链接常涉及姓名、地址等敏感个人信息，引发隐私担忧。当前有研究致力于开发隐私保护记录链接技术，例如对标识符进行加密后再链接。
知情同意：在收集用于链接的数据时，必须获得受访者的知情同意，这是下一节将讨论的内容。

数据预处理工作流 🔄

鉴于数据质量对链接成功至关重要，一个结构化的预处理工作流非常必要。德国记录链接中心提出了一个典型的流程。

以下是记录链接前典型的数据预处理步骤：

理解数据定义：明确两个数据集中变量的含义、格式和编码方式（如日期格式是MM/DD/YYYY还是DD/MM/YYYY）。
数据清洗与解析：修正错误、处理缺失值，并将复杂字段（如包含头衔的姓名）解析为标准格式。
数据规范化：将数据表重组以减少冗余。例如，将包含家庭成员信息和家庭地址的调查数据，拆分为“家庭级”文件和“个人级”文件，分别进行链接，以提高效率。
衍生新变量：根据需要，通过组合或转换现有变量创建新的链接变量。
数据过滤：可能只选择数据集的一个子集进行链接。
执行链接：应用选定的链接算法。

统计匹配：一种不同的思路 🤝

前面讨论的技术都假设链接的是同一实体的记录。现在，我们来看一种完全不同的技术：统计匹配（或称数据融合）。

统计匹配用于合并完全不同的数据集，其中的记录不属于同一实体。其目标是找到两个数据集中相似的个案，然后将它们的信息“融合”起来。

这种方法在因果推断和实验结果的泛化中很常见。例如，有一个接受过某种培训的小群体（处理组），需要找到一个与之特征相似但未接受培训的群体（控制组）进行比较，以评估培训效果。

实施统计匹配通常遵循以下步骤：

确定协变量：选择一组用于衡量相似性的变量。
定义距离度量：确定如何计算两个记录之间的“距离”或相似度。
选择匹配方法：常见方法包括最近邻匹配、回归匹配或倾向得分匹配。
执行匹配：为处理组的每个个案，在控制组中找到一个或多个最相似的个案。
诊断匹配质量：评估匹配后的两组在协变量上是否达到了良好的平衡（通常通过图形或统计检验）。
分析匹配样本：在匹配好的样本上进行后续分析。

可视化图表常被用来展示匹配效果，例如显示每个处理组个案找到了哪个控制组个案作为匹配，以及哪些个案没有找到合适的匹配而被排除在后续分析之外。

软件工具与资源 🛠️

有多种软件工具可以帮助实现记录链接：

R语言：RecordLinkage 等软件包。
Merge ToolBox (MTB)：德国记录链接中心开发的Java应用程序，适用于学术研究。
其他专有或开源软件。

对于统计匹配，可以查阅因果推断和倾向得分匹配相关的大量文献，Elizabeth Stewart等人的综述论文是很好的入门资料。

总结 📝

本节课中我们一起学习了记录链接的几种关键技术。我们首先介绍了基于唯一标识符的精确匹配。随后，我们探讨了当数据存在误差时使用的概率匹配和预测性匹配，并了解了它们面临的共同挑战，如数据质量、计算复杂度和隐私问题。接着，我们详细说明了链接前必不可少的数据预处理工作流。最后，我们学习了目的完全不同的统计匹配技术，它用于融合不同数据集中的相似个案，常见于因果效应评估。理解这些技术的区别和适用场景，对于成功整合多源数据至关重要。

037：记录链接的知情同意与伦理问题 🔗

在本节课中，我们将要学习在调查数据收集中，如何获取知情同意以进行计划中的记录链接。我们将探讨知情同意的标准、选择性偏差的风险，以及数据收集方式（如提问措辞和问题位置）如何影响同意率与数据质量。

知情同意的标准与差异

上一节我们介绍了记录链接的技术方法，本节中我们来看看如何合法合规地获取链接数据的许可。知情同意目前仍被广泛认为是尊重个体自主决策权的有效手段。这意味着你需要询问受访者，是否同意你使用其行政数据或将来自不同数据源的信息进行链接。

目前这在许多国家仍是标准做法。例如，德国法律要求必须征得受访者同意才能链接数据。然而，各国的政策和不同领域的规定存在差异。并非所有地方都需要获取同意。因此，在收集调查数据前，核查当地的具体要求至关重要，因为你需要在调查中向受访者获取此信息。

同意请求中的选择性偏差

从数据收集者的角度来看，必须意识到同意请求可能存在选择性偏差。这与处理无回答偏差类似。同意率可能因调查主题或受访者特征（如年龄、种族、民族、性别、教育程度）的不同而波动，从而引入偏差。

因此，目标不仅是提高同意率，还要确保合并后的数据集不会因同意与否而变得过于选择性，即样本不具有代表性。研究表明，访员特征、前期调查的结果等因素也可能影响是否给予同意，所有这些都可能导致选择性偏差。

理解链接的概念路径有助于分析此问题。我们从一个抽样框中抽取样本，样本中会存在因无回答导致的偏差。如果在此基础上请求链接同意，部分人会同意，部分人会拒绝。若同意与否具有选择性，这就会产生类似无回答偏差的影响。

反之，如果你拥有可与抽样框变量链接的数据，这将是结合评估测量偏差的绝佳方式。理想情况下，你应能评估这些不同的误差来源，或许将其作为链接过程的一部分。

可控的数据收集特征

与受访者特征不同，某些数据收集特征会影响同意率，并且是你可以直接控制的。

以下是三个关键特征：

选择加入 vs. 选择退出：行为经济学和心理学证据表明，默认选项具有强大影响力。如果默认状态是“选择加入”（即需要主动同意），同意率通常低于默认状态为“选择退出”（即告知将进行链接，但允许其选择退出）的情况。美国人口普查局的研究显示了这种措辞的显著影响，但也需注意行为与意图可能不符，以及潜在的偏差问题。
收益与损失框架：另一种影响同意率的提问方式是“收益-损失框架”。最常见的是强调链接带来的收益（例如，“您允许链接将使研究受益”）。但实践表明，采用“损失框架”可能更有效。行为经济学指出，人们通常更倾向于避免损失而非获取收益。在调查情境中，研究表明，强调“如果您不允许链接，您已提供的信息价值将大打折扣”这类损失框架，能提高同意率。
问题放置位置：通常将链接同意问题放在问卷末尾而非开头，理由是此时已建立信任关系。但实验表明，将问题放在开头能获得更高的同意率。多项研究支持了这一结论。

实证研究示例

为了具体说明上述因素的影响，我们来看一些研究结果。一项在德国进行的研究，通过简单回归分析收入与年龄、性别的关系，比较了控制组、选择加入组和选择退出组之间的差异。

公式示例：简单线性回归
收入 = β₀ + β₁ * 年龄 + β₂ * 性别 + ε

研究发现，不同组别间的回归线存在差异，这表明提问措辞可能对数据偏差产生影响。尽管该研究中“选择加入”组的样本量较小，不足以得出确定性结论，但它警示了偏差存在的可能性。

另一项电话调查研究了“收益-损失框架”和“问题位置（前/后）”的影响。结果显示，不同框架在电话调查中差异不大，但问题放在开头比放在末尾的同意率高出近10个百分点。而在针对类似人群的网络调查中，至少在问卷末尾部分，“收益-损失框架”产生了明显差异。

这些例子说明，如何提问以及在何处提问至关重要，它们会影响人们的理解和回答。

对“理解”的评估

确保受访者真正理解同意内容同样重要。在一项特定研究中，通过事后追问发现，即使表示同意的人，也并非全部能正确说出其数据将被如何处理（例如，是否发送给特定机构并合并）。而未同意者中，也有部分人错误地认为其数据会被合并。

这强调了，出于伦理原因，你必须确保受访者真正理解同意内容。同时，提问方式不仅影响同意率，也可能影响同意偏差。

深入讨论与资源

关于是否应该征求同意，学界存在深入讨论。相关编辑著作中包含了许多法律层面的探讨，涉及如何使用大数据、整合多种数据源等。

以下是一些有价值的资源：

德国记录链接中心网站。
欧洲的“Data Without Boundaries”项目，包含大量相关信息。
英国数据档案馆，不仅提供有趣的数据集，也有相关研究项目。
一个用于公众科普的视频短片，有助于减轻人们对行政数据被访问的恐惧。

若想深入学习，可以参考以下资源：

马里兰联合项目提供的在线记录链接课程。
由Julia Lane等人编辑的书籍《Privacy, Big Data, and the Public Good》，其中包含Helen Nissenbaum的相关章节。
Springer出版的Kris所著《Data Matching》。
《Big Data and Social Science》一书中关于记录链接的概述章节。

课程网站上提供了更多参考文献，以上是入门此主题的良好起点。

总结

本节课中我们一起学习了记录链接中知情同意的关键要点。我们了解到知情同意的标准因国家、领域而异，必须在数据收集前进行核查。同意请求可能引入选择性偏差，影响数据质量。数据收集者可以通过控制提问措辞（选择加入/退出、收益/损失框架）和问题放置位置来影响同意率与潜在偏差。最后，确保受访者真正理解同意内容至关重要，并且有丰富的学术资源和实践项目可供深入探索。

038：大数据传感技术的应用：社交媒体数据 📊

在本节课中，我们将探讨传统调查数据之外的替代数据源，特别是“大数据”中的传感数据和社交媒体数据。我们将了解它们的潜在用途、面临的挑战以及实际应用案例。

上一节我们介绍了行政数据作为调查数据的替代方案。本节中，我们将目光转向更广泛的“大数据”领域，特别是传感数据和社交媒体数据。

什么是大数据及其用途？ 🤔

根据美国民意研究协会（APOR）大数据工作组的报告，大数据具有一些潜在用途，但也存在不推荐的应用场景。APOR支持将大数据用于获取定性洞察和监测随时间变化的趋势，但不建议将其用于精确的定量估计。然而，现实中已有尝试将传感数据和社交媒体数据用于定量估计，我们将审视这些尝试的成功程度。

传感数据的应用 🚗

传感数据，特别是来自移动设备的被动收集数据，为研究提供了新途径。用户无需主动操作，设备便能自动收集信息。

以下是传感数据的一些应用实例：

健康与环境监测：集成蓝牙的医疗设备可以测量心率和活动量，智能手机的GPS数据可用于研究污染暴露情况，从而改进测量。
交通使用调查：荷兰统计局（Statistics Netherlands）的Pete Doos进行了一项演示，利用全国超过12,000个交通感应线圈（用于交通控制，如感知车辆以改变信号灯）收集的数据，替代传统的车辆使用调查。

然而，使用传感数据也面临质量挑战：

依从性问题：如果要求被调查者佩戴传感器，可能造成不适、影响其行为，从而导致测量误差，或者他们可能直接不配合。
设备成本与追踪：设备可能昂贵，且需要持续追踪。
数据缺失与测量误差：即使自动传感也存在数据缺失和测量误差。在上述交通研究中，研究者使用了插补法来处理缺失数据。

尽管存在挑战，传感数据在替代特定调查问题方面前景广阔。成功替代的关键在于，调查问题与传感数据产出的一两个变量之间必须有紧密的对应关系。缺乏这种对应关系，传感数据替代现有调查数据的能力就会受到限制。

社交媒体数据作为替代数据源 💬

接下来，我们讨论另一种替代数据源：社交媒体数据。它与传感数据截然不同，本质上是用户的自我报告数据，是用户自愿发布的关于自身、观点或他人可能感兴趣的内容的文字信息。

考虑将社交媒体数据用于测量目的，是基于这样一个事实：约四分之三的美国人口以及更高比例的其他国家人口正在使用社交媒体，且这一比例可能仍在增长。

社交媒体数据的潜力 ✨

社交媒体数据用于社会测量主要有两个目的：

实现难以通过调查完成的定量描述：描绘某些社会现象，这些现象用传统调查方法难以捕捉。
尝试复制调查结果：如果可行，用社交媒体数据替代调查中的部分问题，从而以更低成本、更快速度提供准确估计，甚至可能用于官方统计或纵向调查中的某些轮次。

其优势包括：

低成本：相对于尤其是需要访员的调查数据收集，成本较低。
及时性：对事件敏感，能实时反映动态（即“即时预测”）。
连续性：跨海量用户群体，数据流几乎是连续的。
零负担：数据提供者（社交媒体用户）通常意识不到其数据被用于研究。

社交媒体数据面临的障碍 ⚠️

然而，采用社交媒体数据也面临诸多障碍：

缺乏代表性（覆盖误差）：并非所有人都是社交媒体用户。非用户群体在研究者关注的议题上可能与用户存在差异，导致结果无法代表总体，尤其存在年龄等人口统计因素的偏差。
话题自发性：用户自主选择发布内容和时间。研究者无法保证在庞大的语料库中，有足够多关于特定研究主题的帖子可供分析。这与调查中研究者自主设计问题形成对比，体现了 “设计型数据”（如调查）与 “发现型数据”（如社交媒体）的重要区别。
用户信息匮乏：帖子内容本身包含的用户人口学信息（如年龄、性别）很少，需要额外工作来提取或关联。地理标签也并非所有用户都启用。这导致数据案例丰富但变量贫乏，缺乏有助于解释变量的协变量信息。
文本分析工具的局限性：情感分析等工具对代词、否定、隐喻、反讽、俚语等处理不够细致。数据挖掘和机器学习方法通常是缺乏理论驱动的，可能导致模型仅在特定时间点的特定语料库上有效，缺乏随时间推移的稳定性。
虚假相关性：在庞大的数据集中，许多事物之间或与外部事件之间很可能出现高相关性，但其中很多可能是虚假的，缺乏理论依据。

尽管存在诸多顾虑，社交媒体数据仍具有巨大潜力。目前研究界尚未完全确定其适用场景，但探索兴趣浓厚。

如何使用社交媒体数据？ 🔧

使用社交媒体数据通常涉及两个高层步骤：

从网站提取内容：通过爬取公开网页、使用应用程序编程接口（API）或从商业数据提供商处购买等方式获取帖子文本数据。
从文本中提取意义：将庞大的数据集转化为可量化的信息。常用方法包括：
- 情感分析：判断帖子中的词语是积极还是消极，并与词典比对进行分类计数。
- 更丰富的语义分析工具：例如LIWC（语言查询与词频统计）工具，它包含多个词语类别（如情绪、认知过程），能进行更细致的分类。
- 完整的自然语言处理（NLP）工具：解析整个帖子字符串并赋予解释，更能处理否定、反讽等复杂语义，适用于文本摘要。

总结 📝

本节课我们一起学习了大数据中两种重要的替代数据源：传感数据和社交媒体数据。我们探讨了传感数据在健康、交通等领域的应用及其质量挑战，并强调了其替代调查需满足变量对应关系。对于社交媒体数据，我们分析了其在社会测量中的潜力（低成本、及时性）和主要障碍（缺乏代表性、话题自发性、信息匮乏、分析工具局限等），并概述了从数据获取到意义提取的基本使用流程。

下一节，我们将通过具体案例，看看社交媒体数据在哪些应用中取得了成功，在哪些尝试中未能复制调查结果，并探讨其原因。

039：社交媒体应用：情绪与抑郁测量 📊

在本节课中，我们将探讨如何利用社交媒体数据来完成一些传统问卷调查难以胜任的测量任务。我们将通过两个具体案例——情绪测量与抑郁预测——来了解社交媒体数据在提升测量时效性、连续性以及预测能力方面的潜力。

上一节我们讨论了社交媒体数据作为替代数据源的一般概念，本节中我们来看看它在具体研究问题上的应用。

情绪测量：超越回顾性自评

传统上，对情绪或情感的研究多依赖于回顾性自我报告。受访者（通常是大学生）在实验室环境中回忆过去24小时或一周内的情绪。这种方法存在样本局限性（方便样本）、非实时性以及潜在的回忆误差。

针对这些问题，Goldder和Macy于2009年在《科学》杂志上发表了一项研究。他们分析了来自84个国家、总计5.09亿条推文在一天内的情感内容。他们使用LIWC（我们在前面章节提到过的文本分析工具）将每条推文的情感分类为积极情感或消极情感。

这种方法的优势在于：

极高的时间分辨率：推文每秒都在产生，使得研究者能够描绘出情绪在全天近乎连续的变化图景。
避免回忆误差：人们在发布推文的瞬间表达情感，只要推文包含情感内容，它反映的就是当前的情感。

当然，尽管样本量巨大（240万用户），但它可能无法完全代表所有国家或地区的全体人口。关键问题在于：推特用户与非推特用户在一天内的情绪变化模式是否不同？

情绪模式的分析结果

他们的分析揭示了情绪在一天内的变化模式。下图展示了积极情感（左上）和消极情感（左下）在一周内不同日子的变化曲线。

分析发现：

积极情感在午夜时分最高，随着人们入睡而下降，醒来时回升（人们倾向于快乐地醒来），然后在白天逐渐减少，晚上再次回升，到午夜达到最高。周六和周日的积极情感回升时间点右移，表明人们睡得更晚，但醒来时依然快乐。
消极情感呈现互补但独立的模式，在周末普遍较低。在工作日醒来后，消极情感会有所上升。

当按世界不同地区（如非洲、印度、英国、澳大利亚、美国、加拿大）划分时（右图），情绪变化的基本模式保持一致。这些发现具有表面效度，且是传统问卷调查难以在如此大规模、细粒度（按星期和地区划分）下实现的。

社交媒体在抑郁预测中的应用

另一个案例来自De Choowy及其同事的研究，他们利用推特数据来区分用户是否患有抑郁症。

以下是他们的研究方法：

他们通过亚马逊 Mechanical Turk 平台招募参与者。
参与者完成一份生成抑郁指数的问卷，并授权研究者访问其推特数据。
根据抑郁指数分数和是否报告有重度抑郁障碍的临床诊断，将参与者分为“抑郁”组和“非抑郁”组。
收集两组用户在诊断前（抑郁组）或研究筛选前（非抑郁组）一年的推文。

通过比较，他们发现了两组用户在推特内容上的显著差异模式：

以下是几个关键的比较维度：

推文数量：非抑郁组的推文量更高且随时间增加；抑郁组的推文量更低且在诊断前一年内持续减少。
互动行为（如回复推文）：非抑郁组的互动量更高且增加；抑郁组的互动量更低且减少，表明其与他人互动减少。
消极情感：抑郁组推文中的消极情感内容起点更高，并在一年内持续增加。
第一人称单数使用频率（如“我”）：抑郁组的使用频率更高且差异随时间扩大，这可能表明其更关注自我。
第三人称代词使用频率：抑郁组的使用频率更低且持续下降，进一步支持其与他人互动减少的结论。
抑郁相关词汇：抑郁组推文中包含抑郁相关术语的频率更高，且随时间增加。

构建预测模型

基于从推特中提取的这些特征变量，研究者构建了一个统计模型来预测MDD诊断。该模型能够以70% 的准确率对参与者进行分类，这是一个相当不错的成功率。

因此，研究者得出结论：如果这种方法能够适当扩展规模，或可用于自动化公共卫生抑郁追踪，例如为推特用户计算MDD风险评分，这具有潜在的应用价值。

本节课中我们一起学习了如何利用社交媒体数据执行情绪测量和抑郁预测这两项传统调查方法面临挑战的任务。社交媒体数据提供了更高的时效性、连续性和预测潜力。然而，我们也必须考虑其样本代表性问题。

在下一节中，我们将转向探讨社交媒体数据在那些问卷调查本身已很擅长的任务中的应用，核心问题是：我们能否有效地用这些替代数据源替代或补充调查数据。

040：社交媒体与人口估计的成功案例

在本节课中，我们将探讨利用社交媒体数据来近似或补充传统调查数据的可行性研究。我们将重点关注几个成功的案例，了解其方法，并分析这些成功背后的原因。

上一节我们讨论了社交媒体数据在调查领域的潜力，本节中我们来看看一些具体的研究，它们展示了如何利用社交媒体（如推特）的情绪分析来预测或反映基于传统调查得出的经济或政治指标。

成功案例研究

以下是两个被广泛引用的成功利用社交媒体数据进行人口估计的研究。

奥康纳等人的研究：该研究发现，推特上正面与负面词汇的情感比率与盖洛普的经济信心指数高度相关。盖洛普指数基于对几个调查问题的回答。
特姆金等人的研究：该研究发现，提及某个政党的推文数量能够预测德国大选结果，其准确度与传统选前民调相当。

为了让大家更具体地了解这种方法，我们将深入分析奥康纳等人的研究。

案例详解：奥康纳的研究方法

奥康纳团队在2008年至2009年间，抓取了所有包含“economy”、“job”或“jobs”词汇的推文。他们的分析流程如下：

情感分类：使用一个名为“OpinionFinder”的情感分析工具，将每条推文分类为正面、负面或两者皆有。
计算日度情感比率：对于每一天，计算当天发布的正面推文数量与负面推文数量的比值。公式可表示为：
日度情感比率 = 当日正面推文数 / 当日负面推文数
数据平滑处理：由于社交媒体数据波动较大（噪声多），他们对数据进行了平滑处理，计算了15天或30天的滚动平均值。
与时滞调查数据对比：他们将推特情感数据与两项传统的电话调查数据进行了对比，并尝试了不同的时滞（从推文领先调查90天到落后90天），以寻找最佳匹配关系。对比的两项调查是：
- 消费者信心指数：基于密歇根大学“消费者调查”中的5个问题。
- 盖洛普经济信心指数：基于每日追踪调查中的2个问题。

研究结果与解读

研究发现，当仅分析包含“jobs”一词的推文，并将推特数据在时间轴上适当提前（右移）时，其与调查数据的相关性最为清晰。这意味着推特情绪的变化领先于后续调查所反映出的公众情绪，可以被视为一个先行指标。

作者将此解释为：推特数据与某些调查数据之间可以存在中等偏强的相关性，且推特上的信息产生于调查估计值之前，即“推文引领调查”。

成功案例的复现与扩展

多斯在欧洲进行的研究成功地复现并扩展了这一结论。他比较了荷兰消费者信心指数与来自九个不同社交媒体平台（包括Facebook和Twitter）的内容。

他使用了商业数据提供商Ksto购买的数据及配套的情感分析结果。
研究发现，社交媒体内容与调查数据之间的相关性普遍高于奥康纳的研究。
例如，仅Facebook数据与调查的相关系数就达到了0.85。
当结合Facebook和所有推文时，相关系数升至0.87。
最高相关性（0.90）出现在结合Facebook与那些包含“我”和“我自己”词汇的推文时。

多斯也调整了时滞，发现相关性在调查实地访问最活跃的7天期间最高。他提出，社交媒体反映的是一种普遍情绪或“共同原因”——即调查数据和社交媒体数据都源于同一种公众情绪，并非是对已发布调查结果的反应，因此社交媒体数据会领先于调查结果。

本节总结

本节课中我们一起学习了利用社交媒体数据进行人口估计的成功案例。我们通过奥康纳和多斯的研究看到，通过分析社交媒体上的情感倾向，并将其与时间序列上的传统调查数据进行对比和校准，确实可以在某些领域（如经济信心）获得高度相关的结果。这表明社交媒体数据有潜力作为传统调查的补充或先行指标。

然而，这种一致性并非总是如此之高。在奥康纳的研究中，推特数据与两项不同调查的相关性也存在差异。下一节，我们将探讨社交媒体与调查数据之间不一致的情况，并分析可能导致这种差异的原因，以及为何不同研究会对社交媒体的应用潜力得出不同结论。

041：社交媒体数据与调查数据的协同与分歧 📊

在本节课中，我们将探讨利用社交媒体数据来复制或替代传统调查数据的研究尝试。我们将分析此类尝试有时成功、有时失败的原因，并讨论影响两者数据一致性的关键因素。

在上一节中，我们介绍了一些成功利用社交媒体内容复制调查数据的案例。本节中，我们来看看一些不那么成功的尝试，并深入探讨为何社交媒体数据与调查数据有时能保持一致，有时却不能。

不一致的研究案例

以下是几个未能成功复制调查结果的社交媒体研究案例。

奥康纳研究的局限性：奥康纳发现，包含“工作”一词的推文数据与盖洛普调查数据有较高的相关性。然而，推文数据与密歇根消费者信心指数的相关性则较低。因此，奥康纳本人也认为其论文结果是混合的。
容哈尔的重新分析：容哈尔及其同事重新分析了塔姆扬等人曾用于成功预测德国大选结果的推文集。他们将被塔姆扬团队剔除的、提及小型政党“海盗党”的推文重新纳入分析。结果，基于推特内容预测选举结果的能力被大幅削弱。这表明最初的发现相当脆弱。
文件抽屉问题：一个更可能存在的普遍问题是“文件抽屉问题”或发表偏倚。即只有成功的研究（无论是针对此特定问题还是广义的科学）被发表，而那些未产生显著结果的“不成功”研究则不被发表。我们可能永远不知道后者，而它们的数量可能远超已发表的成功研究。在利用社交媒体内容复制调查数据这一领域，情况很可能就是如此。
时间局限性：发表偏倚的一种变体是，社交媒体内容与调查数据可能在某一时间段内高度一致，这个“成功故事”得以传播；但到了下一时间段，这种关系可能瓦解或减弱，而我们可能永远无从知晓。

因此，评估社交媒体数据能在多大程度上用于传统调查的用途，是一件有些棘手的事情。

数据不一致的可能原因

那么，为何社交媒体内容有时与调查结果一致，有时又不一致呢？以下是几种可能性。

用户代表性差异的抵消：尽管社交媒体用户群体与总体人口必然存在差异（存在覆盖不足），但用户所发帖文中的情绪和经历，可能与总体人口中的情绪和经历成比例。因此，即使发推的是不同类型的人，他们谈论的经历也可能与普通大众相似。当数据一致时，情况必然如此。
社交媒体的“社交”属性：社交媒体本质上是社交性的。用户发帖时，不一定只是为了表达自我，也可能是为了他人。他们会发布认为他人感兴趣、可能被转发或点赞的内容，并且可能提炼出他们在环境中察觉到的更广泛对话。从这个意义上说，我们在社交媒体上看到的特征可能与调查中看到的相似。
内容提取工具的差异：用于从社交媒体提取内容的特定工具可能影响结果。例如，使用两种不同的情感分析工具可能得出不同结果；或者一项研究使用情感分析工具，另一项使用我们讨论过的LDA等语义分析工具，这也可能导致不同结果。同样，所使用的特定机器学习算法的细微差别也可能导致不同结果。研究及其复现之间的许多变量都可能影响这两种数据源讲述相同故事的程度。
调查问题类型的差异：在这些研究中，我们试图与社交媒体数据匹配的特定调查问题本身可能造成重大差异。例如，有些调查问题询问受访者自身情况，有些则询问关于更大群体（如国家整体）的看法。这种区别可能很重要，因为某一类问题可能比另一类更类似于产生社交媒体帖子的过程。调查问题之间可能还存在许多其他区别。

问题类型的影响：个体 vs. 集体

让我们具体探讨询问个体（受访者自身）和询问集体（更大群体）的问题之间的区别。以下是来自消费者信心指数的两个真实问题示例：

关于个体的问题：“展望未来，你认为从现在起一年后，你和你的家庭在经济上会比现在更好、更差，还是差不多？” 公式/代码表示：Survey_Question_Self = "你和你的家庭未来经济状况"
关于集体的问题：“那么对于国家整体的经济状况，你认为未来12个月内，我们会经历经济上的好时期、坏时期，还是其他？” 公式/代码表示：Survey_Question_Collective = "国家整体未来经济状况"

那么，寻求社交媒体数据（特别是推特）与上述每类问题的一致性，可能会产生什么后果呢？

下图提供了2008年至2011年底期间的一些启示。黑线代表推特情感比率（使用名为Lexxipro的情感分析工具处理包含“工作”一词的推文）。红线代表来自上述个体问题的调查数据情感。蓝线代表来自上述集体问题的调查数据情感。

总体而言，推特内容与集体问题之间的相关性，是推特内容与个体问题之间相关性的两倍多。这表明，在研究这种数据一致性时，调查问题的类型可能很重要。

然而，这里存在一个问题：在上述四年整体数据中，集体问题的优势是明显的，但如果我们观察单个月份或其他更小的时间段，并非在所有时间段都能看到这种关系。实际上，在逐月观察时，集体问题相对于个体问题的优势仅在约一半的月份中显现。

这意味着，如果我们考虑用社交媒体数据替代例如每月一次的调查，鉴于这些数据和问题，这可能不是一个好主意。

未解之谜与未来方向

关于如何用社交媒体内容替代调查，仍存在许多未解之谜。我们讨论过社交媒体在其他方面补充调查数据或在难以进行调查的场景中的应用。但对于“复制调查结果”这一目的，我们确实需要知道何时能找到一致性、何时不能。我们在此提出了一些可能的解释，但这仍是非常初步和提示性的。

我们还需要知道在何种时间分辨率（年度、月度、周度）上存在一致性。因为在刚才的例子中，在四年期存在一致性，但在月度增量上则不然。那么，我们可以依赖哪种时间周期来确保这种一致性呢？

谈到可靠性，我们何时需要以调查数据为基准来校准社交媒体趋势，何时社交媒体数据可以独立使用？目前，我们总是将调查数据作为“黄金标准”，或者仍然需要某种黄金标准来评估社交媒体内容。当社交媒体内容有充分的理论基础，或者我们对它的解释有充分的理论依据，以至于我们可以不参照黄金标准就相信数据时，我们才能更好地将其纳入目前使用调查进行的各种估计过程中。

课程总结与展望 🎓

本节课是我们关于移动数据收集与替代模式的最后一节，也是我们整个课程的结束。

有一点应该显而易见，但我想强调：随着这些替代模式的兴起，调查并不会消失。它们正在演变，但对调查的需求一如既往地强烈。我们在第一课中讨论的所有经典模式仍在广泛使用，并在可预见的未来将继续存在。新的模式，如移动网络、短信、视频介导访谈等，也是如此。

这是因为，描述各种人群特征的需求从未如此巨大，而且还在增长。十年前，我们还没有从移动设备应用上收集调查数据。但随着社会变化，我们持续需要监测人们的经历和态度。

没有这类信息，我们作为一个社会就无法做出好的决策。随着我们自身的变化，我们需要调整测量过程以适应这些变化。真正重要的是数据质量，无论它来自调查中的自我报告，还是来自传感器或社交媒体。

现在，你们已经掌握了评估数据质量、并确定哪种数据收集模式能最大化权衡利弊的工具。

但我鼓励你们通过学习调查数据收集与分析专项课程的其他部分，来补充这些技能和工具。这些技能组合在一起将形成一个宝贵的工具箱，使你们能够真正解决社会研究中的诸多问题。

因此，我敦促你们走出去，运用这些知识并讨论它。通过论坛告诉我们你们的进展，彼此交流。希望你们在整个课程中一直在相互交流。请将这些技能和新知识付诸实践。

制作这些视频让我非常愉快，在过去的许多个月里一直致力于此，这对我很有益。我真诚地希望它对你们有价值，并且在未来继续有价值。我期待在论坛上听到你们的成功消息，并祝愿你们前程似锦。

谢谢。

042：移动网络调查方法访谈 📱

在本节课中，我们将学习移动网络调查这一新兴数据收集方法。通过与国立研究大学高等经济学院的Aigul Mavletova博士的访谈，我们将探讨移动网络调查与传统网络调查的异同、其独特优势与挑战，以及面向未来的问卷设计策略。

访谈概述

本次访谈邀请了Aigul Mavletova博士，她专注于移动网络调查这一新兴数据收集方法的研究。我们将探讨移动网络调查的本质、其与传统网络调查的关系、数据质量影响因素以及未来的发展趋势。

移动网络调查的本质：新模式还是变体？

上一节我们介绍了移动网络调查这一主题。本节中，我们来看看研究者如何界定它的本质：它是一个独立的新模式，还是仅仅是传统网络调查的一个变体？

Mavletova博士指出，这个问题可以从两个角度来思考。一项2010年的早期研究试图验证移动网络调查是否与其他调查模式相似。该研究复制了在其他调查模式中稳健存在的效应，例如问题顺序效应和高低频率量表的差异。研究发现，这些效应在移动网络调查中同样存在。这表明，受访者在完成移动网络调查时的认知处理过程可能与其他模式相似。

关于移动网络调查是独立模式还是网络调查变体的问题，存在两种观点：

新测量机会视角：智能手机带来了全新的测量机会，如GPS数据、图像、视频和各种传感器数据。利用这些功能的研究需要不同的实验设计。
设备变体视角：如果将移动设备（手机）视为另一种访问网络调查的设备（类似于PC），那么它就是广义网络调查的一部分。在这种情况下，许多针对网络调查的方法论研究结果可以借鉴应用，尽管两者之间存在一些差异。

浏览器调查 vs. 应用程序调查

上一节我们讨论了移动网络调查的两种视角。本节中，我们来具体看看移动网络调查的两种主要实现形式：基于浏览器的调查和基于应用程序的调查。

Mavletova博士比较了这两种形式的优劣。基于应用程序的调查有其显著优势：

设计控制：研究者可以完全控制问卷在手机上的显示方式。
离线支持：受访者不需要持续的互联网连接。
数据丰富：可以便捷地收集GPS数据、图像、视频，或调用加速度计等传感器。

然而，应用程序调查也面临重大挑战：

开发成本：需要为不同的智能手机系统开发应用程序，投资较大。
参与门槛：需要受访者主动下载应用程序，这导致了较高的无回答误差。大约只有不超过50%的人愿意下载。
高损耗率：即使在下载后，参与度也难以维持。大约50%-60%的用户在一年内会停止参与或卸载应用程序。

移动状态与数据质量

上一节我们了解了应用程序调查的优缺点。本节中，我们探讨另一个关键问题：受访者在移动状态下完成调查是否普遍，以及这对数据质量有何影响。

以下是关于受访者移动状态的两个发现：

移动性更高：与PC网络受访者相比，移动网络受访者确实更常在移动中完成问卷。在PC条件下，约70%-80%的受访者在家或办公室完成；而在移动条件下，约有40%的受访者处于移动状态。
对中断率的影响：研究表明，移动性对调查中断率有显著影响。例如，一项研究发现，在移动状态（如行走中）的受访者，其中断率几乎是在固定场所（如咖啡馆、办公室）受访者的两倍。

虽然移动状态可能导致更高的中断率，但目前的研究并未明确显示它对已回答问题的数据质量有显著负面影响，测量等效性在总体上仍然成立。

问卷设计：分页 vs. 滚动

上一节我们讨论了受访者状态对数据收集的影响。本节中，我们转向问卷设计本身，看看在移动设备上，分页设计和滚动设计哪种更优。

Mavletova博士分享了其2014年论文的研究发现，该研究比较了分页设计与滚动设计。滚动设计（将所有问题放在一个可滚动的屏幕上）显示出一些优势：

更快的完成时间
更少的技术问题
更高的受访者满意度

然而，极端滚动设计（例如单屏放置30-40个问题）也存在问题，可能导致较高的项目无回答率，因为受访者可能漏看问题。此外，当问卷包含复杂的跳转逻辑时，分页设计更具优势，因为受访者无法在单屏上看到所有跳转指令，容易出错。

因此，理想的策略可能是混合使用分页和滚动设计，避免极端形式。滚动设计有助于节省移动受访者的时间（移动调查完成时间通常是PC的两倍），但需确保问题数量适中（例如5-6个问题一屏），并在存在复杂跳转时使用分页设计。

移动设备的未来与设计优先

上一节我们探讨了移动端的问卷设计策略。在本节最后，我们展望未来，思考移动设备在数据收集中的角色将如何演变。

Mavletova博士认为，移动设备已成为首要的上网设备，仅使用移动互联网的人数也在快速增长。在调查领域，从移动设备开始访问问卷的受访者比例已相当高（美国约40%-50%，俄罗斯约35%-40%），并且这一比例可能增长至约60%。

因此，未来的设计理念应该是 “移动优先” 。这意味着研究者应首先为移动设备用户设计问卷，然后再为PC等其他设备进行优化。这要求改变当前许多过于冗长和复杂的问卷设计，使其更适应移动端的使用习惯和限制。尽管改变需要时间，但随着技术和行业的发展，面向移动端的问卷设计优化将是必然趋势。

总结

本节课中，我们一起学习了移动网络调查的核心内容。我们探讨了它作为调查模式的特点，比较了浏览器与应用程序调查的优劣，分析了受访者移动状态对数据收集的影响，并讨论了移动端问卷设计（分页与滚动）的最佳实践。最后，我们明确了“移动优先”将是未来调查设计的重要方向。理解这些内容，有助于我们更好地利用移动技术进行有效的数据收集。

043：导论 🎯

在本节课中，我们将学习《社会调查问卷设计》这门课程的整体框架、核心目标以及你将用到的学习资源。课程由密歇根大学和马里兰大学的调查方法学项目合作开设，专注于调查方法学中的一个关键环节：问卷设计。

课程背景与目标

本课程由弗雷德·康拉德和弗拉卡·克罗尔共同讲授。课程内容源于密歇根大学、马里兰大学以及Westat机构教职员工的研究与教学贡献。

课程的核心目标是教授调查方法学的各个方面。本课程将聚焦于其中一个相对较小的方面：测量误差。

测量误差指的是受访者对单个问题的回答与其真实值之间的差异。这与调查总误差视角中的左侧部分相关。

问卷设计流程概述

上一节我们介绍了课程的整体目标，本节中我们来看看问卷设计的具体步骤。问卷设计过程可以分为以下几个阶段：

以下是问卷设计的主要步骤：

确定目的：明确问卷及每个问题的目标。
选择模式：决定问题的传递方式，例如面对面访谈、电话访谈或自填式问卷（如邮寄纸质问卷或网络问卷）。模式会影响具体问题的设计，例如，在语音模式中，问题应更简短；在视觉模式中，则无需过多担心此问题。
考虑分析目标：明确每个问题在实现整体分析目标中的作用。
搜集或编写问题：收集现有问题或撰写原创问题，并进行预测试。
组装成问卷：将测试后的问题最终组合成完整的问卷或调查工具。

课程单元结构

在了解了设计流程后，接下来我们预览一下课程的具体内容安排。本课程共包含六个单元：

以下是各单元的简要介绍：

第一单元：涵盖准确性、可靠性等术语概念，并讨论标准化访谈及相关访谈技巧。
第二单元：提供关于回答过程的理论背景，即受访者如何回答问题。该单元的理论将贯穿整个课程。
第三单元：涵盖特别难以回答的具体问题类型，例如涉及敏感话题或需要困难记忆检索任务的问题。
第四单元：讲解态度问题与回答量表。
第五单元：介绍问卷预测试方法。
第六单元：讲解将单个问题组装成完整问卷工具的过程。

学习资源与要求

为了帮助你更好地学习，课程提供了丰富的阅读材料和参考资源。

必读材料选自开放获取期刊或允许提供特定论文访问权限的期刊，以及美国联邦或政府统计机构的一些报告。由于开放获取的限制，部分幻灯片中引用的重要研究可能无法在此获取，这些不属于必读内容。

单元作业为选择题，内容将涉及每个单元的一篇必读材料。

推荐教材包括：

Tourangeau等人的著作：理论性强，详细描述了受访者回答问题时的心理与社会过程。
Fowler的著作：实用的调查问题设计指南。
Converse和Presser的著作：一本简短的优秀手册，提供实用的问卷设计建议。
Sudman和Bradburn的著作：同样是实用指南，但比Converse和Presser的著作更详细，是经典的问卷设计书籍。
Sudman, Bradburn和Schwarz的著作：与Tourangeau等人的书类似，关注回答问题的心理过程。
Willis的著作：兼顾理论与实践，详细讲解本课程重点关注的预测试技术——认知访谈。
Couper的著作：实用的网络调查设计指南，配有优秀的网页示例和插图。
DeVellis的著作：关于设计涉及回答量表的项目的实用指南。
Presser等人编辑的文集：来自问卷设计与评估会议的章节合集。

其他有用资源：

ICPSR档案库（校际政治与社会研究联盟）：可查找过往及当前调查中使用的现有问题。
NCHS问题库（国家卫生统计中心）：存档了已被使用的问题及其预测试报告。
调查质量预测工具：由欧洲社会调查的研究与方法学专业中心开发，可用于测试问题的信度和效度。

论坛使用建议

课程设有论坛或讨论板，请善加利用。在发帖时，请注意：

以下是发帖时的几点建议：

明确陈述你的目标。
提供必要的背景信息，但不要过多。
考虑到课程中大多数学员是全职工作，时间有限。
请礼貌待人。

本节课中，我们一起学习了《社会调查问卷设计》课程的导论部分，包括课程目标、问卷设计流程、六个单元的核心内容、必读与推荐的学习资源，以及论坛的使用规范。我们非常高兴能讲授这门课程，并期待你的加入。

044：问题类型 📝

在本节中，我们将学习调查问卷中可能遇到或需要设计的不同类型问题。我们将通过实例介绍相关术语，以便在后续课程中讨论各类问题时，您能清晰理解。

概述

调查问卷包含多种形式的问题，每种类型都有其特定用途和设计考量。了解这些类型有助于设计出更有效、更清晰的问卷，从而收集到更高质量的数据。

简单问题

首先，我们来看最简单的问题形式。这类问题通常只提供一个简单的选择，无需额外解释。

以下是一个来自“监测未来”调查项目的例子。该调查由美国国家药物滥用研究所赞助，密歇根大学社会研究所执行。

问题示例：你是否同意某个观点？
答案选项：是 / 否

这是一种封闭式问题，结构最为简单直接。

系列提示问题

上一节我们介绍了简单问题，本节中我们来看看结构稍复杂的问题。这类问题包含一个主问题和多个相关联的子项。

以下是另一个“监测未来”调查中的例子。这是一种自填式问卷，布局清晰，便于受访者识别答案选项和标签。

主问题：你有多少次使用过大麻？
子项/提示：
1. 在你的一生中？
2. 在过去一年中？
3. 在过去一个月中？
答案格式：每个子项后都附有一套量表选项（例如：0次、1-2次、3-5次等）。

在后续课程中，我们将深入探讨如何选择量表的点数、使用何种标签以及如何设计这类问题的布局。

单选与多选问题

接下来，我们区分两种常见的封闭式问题：单选问题和“选择所有适用项”的多选问题。

1. 单选题
这类问题要求受访者从多个选项中只选择一个答案。

问题示例：你认为未来三年自己的生活将变得更好还是更糟？
答案格式：提供一个从“好得多”到“糟得多”的量表供选择。

2. 多选题（“选择所有适用项”）
与单选题不同，这类问题允许受访者选择多个或所有适用的答案选项。

以下是关于种族和民族的问题示例，请注意其中的答题说明。

问题：你的种族或民族是什么？（可选择一项或多项）
答案选项：白人、黑人或非裔美国人、亚裔等。

以下是另一个关于吸毒方法的“选择所有适用项”问题示例。

问题：你通过哪些方式使用可卡因？
答案选项：吸食、注射、口服等。

数据分析提示：在设计阶段就需考虑如何编码此类多选题。通常，每个选项会被转换为一个独立的变量（例如，变量“吸食”的值为0或1），以便于后续分析。我们将在关于制定分析计划的章节中详细讨论。

筛选问题

筛选问题用于根据受访者对前一问题的回答，决定是否询问后续问题。这可以避免向不相关的受访者提问，从而缩短问卷长度并提升体验。

以下是一个来自2002年英国犯罪调查的示例。这是一个访谈员主导的问卷，包含许多受访者看不到但程序或访谈员能识别的代码。

筛选问题：（除了已经提到的）在那段时间里，是否曾有人未经许可闯入你的房屋并造成损坏？
答案与路径：
- 如果回答“是”，则继续询问后续的详细问题。
- 如果回答“否”，则跳过后续相关问题。

研究备注：有研究表明，部分受访者可能会察觉到这种结构，并为了跳过后续复杂问题而在筛选问题上故意回答“否”。关于这一现象的研究，我们将在课程网站的其他资料中进行展示。

开放式问题

最后，我们来看开放式问题。这类问题不提供预设选项，允许受访者自由填写文字答案。

以下是一个来自美国KTTC电视台客户调查的例子。

问题：请告诉我们您最喜欢KTTC新闻的哪一点。
答案格式：一个供受访者输入文字的回答框。

设计提示：在网页调查中，回答框的大小会影响受访者回答的长度和详细程度。我们将在关于网页调查设计的章节中详细讨论。

总结

本节课中我们一起学习了调查问卷中常见的几种问题类型：

简单问题：提供是/否等简单选择。
系列提示问题：一个主问题下包含多个量表式子项。
封闭式问题：包括单选题和多选题（“选择所有适用项”）。
筛选问题：根据答案决定后续提问路径，以定制问卷。
开放式问题：允许受访者自由填写文本答案。

理解这些类型是设计有效问卷的基础。在下一节中，我们将探讨回答偏差与变异，即问题的表述方式、布局设计以及受访者的理解如何影响其答案。

045：测量误差：偏倚与方差 📊

在本节课中，我们将要学习测量误差的两个核心概念：偏倚与方差。理解这两个概念对于设计高质量的调查问卷至关重要，因为它们直接影响我们测量结果的准确性和可靠性。

概述：什么是偏倚与方差？

上一节我们介绍了调查设计的基本框架，本节中我们来看看测量过程中可能出现的两种主要误差。偏倚与方差是评估测量质量的关键维度。简单来说，方差衡量的是测量结果的分散程度，而偏倚衡量的是测量结果与真实值之间的系统性偏离。

为了帮助理解，我们可以想象一个飞镖靶。我们的目标是让所有测量结果（飞镖）都命中靶心（真实值）。

理解方差 🎯

如果飞镖分散在靶子的各个位置，但平均来看仍围绕靶心，这种情况就代表了高方差。这意味着测量结果不一致、波动大，但没有系统性错误。

以下是方差产生的原因：

问题的模糊性：受访者对问题的理解不一致。
定义的多样性：受访者对问题中关键概念（如“犯罪”、“受害者”）的个人理解不同。
回答的随机波动：受访者的回答因各种偶然因素而偏离。

在统计上，高方差会导致更大的标准误。但一个好消息是，通过增加样本量，可以在一定程度上克服方差带来的问题。当然，作为问卷设计者，我们的首要目标仍然是减少模糊性，让所有“飞镖”都更靠近靶心。

理解偏倚 🎯

如果所有飞镖都系统地偏离靶心，落在同一个错误区域，这种情况就代表了偏倚。这意味着测量结果存在一致性的、方向性的错误。

偏倚的问题更为严重，因为：

系统性错误：所有受访者都以相同的方式误解或误报。
无法用样本量修正：即使增加调查样本量，所有结果依然偏离真实值，平均值也是错误的。不存在简单的统计技巧来纠正偏倚。

因此，问卷设计的核心挑战之一就是识别并最小化偏倚。

实例分析：方差 vs. 偏倚

让我们通过两个具体问题来区分方差和偏倚。

1. 可能引起方差的问题示例：

“上周你是否是犯罪的受害者？”

这个问题在多个方面可能引发受访者的不同理解，从而导致回答的分散（方差）。

以下是该问题可能产生方差的原因：

时间框架模糊：“上周”可能指“今天之前的7天”，也可能指“上一个日历周”。不同文化背景下，一周的起始日（周日或周一）也不同。
核心概念定义模糊：“受害者”的定义可能因人而异。有人可能只将严重伤害视为受害，而忽略轻微事件。
行为定义模糊：对“犯罪”的理解。例如，家庭暴力在某些受访者看来可能不属于“犯罪”，但调查者却希望将其包含在内。

2. 可能引起偏倚的问题示例：

“《布雷迪法案》能将枪支从已定罪的杀手手中夺走。你支持《布雷迪法案》吗？”

这个问题通过引导性陈述和不平衡的选项，可能系统地引导受访者给出支持的回答，从而产生偏倚。

一个更中立的问法应该是：

“《布雷迪法案》旨在对枪支购买实施背景调查。你是支持还是反对这项法案？”

修改后的版本去掉了情绪化表述，并提供了平衡的选项（支持/反对），有助于减少偏倚。

误差的三大来源

在我们讨论的例子中，误差可能来自多个环节。在整门课程中，你应始终关注以下三个可能产生方差和偏倚的要素：

受访者：受访者对问题的理解、记忆能力、社会期望以及是否愿意透露真实信息，都可能引入误差。
问卷项目：这是设计者最能控制的环节。问题的措辞、选项的设置、问题的顺序等设计要素，直接影响误差的大小。
访问员：在非自填式调查中，访问员扮演关键角色。

访问员提问的方式、语气、是否进行解释以及其个人特征，都可能影响受访者对问题的感知和最终答案的选择。因此，控制访问员的影响至关重要。

总结与预告

本节课中我们一起学习了测量误差的两个基本概念：方差和偏倚。方差是测量的分散程度，偏倚是测量的系统性偏差。减少方差有助于提高估计的精确度，而减少偏倚是保证测量准确性的根本。

我们了解到，误差主要来源于受访者、问卷项目和访问员三个方面。作为设计者，我们应专注于优化问卷项目，并规范访问员的行为。

正因为访问员是重要的误差来源之一，在接下来的章节中，我们将首先探讨标准化访谈，随后介绍交谈式访谈，以帮助你理解访问员与受访者之间的互动如何影响数据质量，以及我们如何通过规范这种互动来提升调查的效度。

046：标准化访谈 📝

在本节课中，我们将学习标准化访谈技术。我们将了解其核心理念、具体操作指南，并通过一个实际研究案例，深入探讨访谈员如何影响调查数据的质量。

在上一节中，我们讨论了调查中的偏差与方差，并提到访谈员可能对两者都有贡献。因此，在本节中，我们将更详细地解释其原因和发生机制。为了理解访谈过程中的关键问题，回顾标准化访谈技术会很有帮助。在下一节，我们将讨论更偏向对话式的访谈技术。

标准化访谈的目标与假设 🎯

在研究中，目标通常是实现标准化，以确保每位受访者都经历相同的提问过程，并且答案的记录方式也相同。这样，两位给出相同答案的受访者，其答案应以相同的方式被记录。

正如杰克·福勒和曼乔尼在其著作《标准化访谈》中所指出的，如果实现了这一点，那么答案之间的差异就可以被正确地解释为反映了受访者之间的差异，而非产生这些答案的过程之间的差异。这是标准化访谈的核心精神，并且自那时起，在美国及其他地方的许多调查中都得到了很好的实施。

然而，这背后的假设是访谈员能充分履行其职责。他们必须经过仔细培训，并理解这是收集答案时应遵循的流程。同时，也假设每个问题的措辞都是一个完整且充分的脚本，足以让听到或读到问题的受访者做好充分回答的准备。

标准化访谈的核心指南 📋

以下是标准化访谈的一些重要指导原则：

严格按原文朗读：问题应完全按照写好的措辞来朗读。
非引导性追问：追问只能以非引导性的方式进行。在标准化访谈中，常见的情况是受访者向访谈员提问，而访谈员的标准回应是“这对您来说意味着什么？”这虽然可能让受访者有些沮丧，但确实是一种不影响受访者的回应方式。
标准化回应策略：常见的策略包括访谈员重新朗读问题或答案选项，或者确保受访者确实从提供的选项中选择一个答案。
准确记录答案：访谈员记录的答案应准确反映受访者所说的内容。
避免透露个人信息：访谈员不应提供任何可能暗示其对调查主题有特定价值观或偏好的个人信息。
避免给予反馈：最后，不应向受访者提供任何反馈。

访谈实例分析 🎧

让我们听一段标准化问卷的对话实例：

访谈员：现在我想问您一些关于您饮食的具体问题。在接下来的这组问题中，我会问您对进行某些行为的支持或反对程度。在我说完行为后，请从以下选项中选择一个回答：强烈支持、有些支持、既不支持也不反对、有些反对、强烈反对。第一个行为是：避免吃快餐。

受访者：避免什么？不好意思。

访谈员：避免吃快餐。

受访者：避免吃快餐？是的，有些（支持）。

访谈员：有些（支持），谢谢。稍等，让我澄清一下，选项是：强烈支持、有些支持、既不支持也不反对、有些反对、强烈反对。

受访者：嗯，我有些支持避免快餐。谢谢你的澄清。

受访者：我不是强烈反对想吃快餐……但我经常吃快餐，对吗？还是说“这对您来说意味着什么”？

访谈员：我的意思是，我只是想澄清一下我使用的语言定义。您刚才说的是“有些支持”，对吗？

受访者：我有些支持快餐？不，是支持避免快餐。是的，是的，谢谢，谢谢。是的，我知道那里好像有个否定词，所以我支持（避免）。谢谢。

这些音频片段让您对标准化访谈有了直观感受，同时也展示了一些对话过程中的中断。例如，受访者请求澄清，而访谈员也并非完全按脚本朗读，我们在这些音频文件中注意到了这些情况。

案例分析：犯罪恐惧感调查 🔍

这是一个在受害情况调查中常被问到的典型问题，在测量普遍犯罪恐惧感的调查（如综合社会调查）中也能找到：

“在您家附近一英里范围内，是否有任何区域是您晚上不敢独自走动的？”

这是一个很难回答的问题。您可以想象，受访者脑海中不一定有现成答案。他们可能无法具体想象一英里内的区域，或者他们晚上根本不去那里走动，因此他们真的知道自己晚上在那里走动时会多害怕吗？但这个问题触及了犯罪与受害调查的核心精神。这类犯罪受害调查中有许多类似性质的问题，它们可能很敏感（受访者可能不愿向访谈员诚实回答），也可能很模糊（我们在之前的章节中已经讨论过一些可能产生问题的词汇）。

访谈员效应研究设计 📊

正是由于上述原因，我们进行了一项调查来测量访谈员对受访者的影响。需要说明的是，本节内容比我们通常看到的更具统计性，但为了让大家理解这些访谈效应的本质，这是重要的背景信息。

在这项于2001年在德国启动的研究中，我们能够由五个独立的研究机构，在相同的抽样点（即相同的地理区域，可能是小村庄或几个城市街区）进行四次随机概率抽样调查和一次季度调查。这四次调查中，两次是面对面调查，一次是电话调查，一次是邮寄调查。我们共有160个这样的抽样点，每个抽样点内的地址被随机分配到上述四种调查中。

这项研究在设计上为何对此问题有意义？对于之前提到的犯罪恐惧感问题，人们预计会看到抽样点本身的影响，即住在同一地理区域、同一社区的人可能会给出非常相似的答案。毕竟，如果这是一个“危险社区”，我们会预期人们对此有所反应。调查中的其他问题也与社区直接相关，例如到最近火车站的距离或其他社区指标。

一般来说，在调查研究中我们知道，住在同一抽样点的人，其回答彼此之间的相似度，高于从整个人口中随机抽取的人。我们称之为调查中的设计效应或聚类效应。它有一个不幸的副作用，即会降低你的有效样本量。试想，如果你选取的两个人回答完全一样，其信息量等同于只问了一个人。出于经济原因（访谈员无法在全美国到处跑），以及许多国家没有现成的名单可以轻松抽取随机样本，这些聚类效应通常是不可避免的。

在大多数调查中，如果你处于聚类样本的背景下，并且有这些抽样点，那么访谈员在同一区域工作。对于普通的面对面调查来说，很难区分访谈员对受访者答案的影响与社区本身的影响。这就是我们进行这项研究的原因。

在这项研究中，因为我们有四次调查，特别是在每个抽样点内进行了两次面对面调查，我们得以区分访谈员对受访者答案的同质化影响与抽样点本身的影响。

如果我们将其写出来，我们观察到的关于问题的总方差包含三个部分：抽样点（地理区域）方差、访谈员方差，它们共同构成了研究中观察到的聚类方差，然后是受访者自身的方差（所有受访者个体差异的部分）。这项调查的目标就是为我们提供一个机会，来区分区域效应和访谈员效应，并了解在面对面调查中访谈员效应对方差成分的影响程度。

方差成分与设计效应 📈

通过这些方差成分，我们可以计算所谓的 ρ（rho），即组内相关系数。其公式如下：

ρ = 聚类方差 / (聚类方差 + 受访者方差)

这个组内相关系数 ρ 会代入以下公式，构成设计效应的度量：

设计效应 = 1 + ρ × (w - 1)

其中，w 是聚类规模（理想情况下各聚类规模相似）。当聚类规模不同时，计算会变得更复杂，本课程不深入讨论。我个人喜欢使用设计效应的平方根作为度量，因为它更直观，与置信区间的膨胀直接相关。但两种方式都可以。

作为一个经验法则，如果设计效应为2，意味着你的方差膨胀了相应的量，这转化为约1.4的设计效应平方根值。

研究结果分析 📉

现在让我们看看这项调查的结果。我们发现设计效应度量值在1到3之间（3非常大，1很小，1意味着没有效应，没有膨胀）。图中的每个点代表一个调查项目（该调查约有110个项目，我们计算了每个项目的设计效应）。

更关键的是，我们查看了访谈员方差占总体设计效应的比例。比例值为1意味着这里看到的全部设计效应都归因于访谈员，而为0则意味着只看到了区域效应。结果有些令人担忧，因为在本调查中，大多数项目都位于图的上半部分。

如果我们使用相同的度量，观察访谈员方差占总聚类方差的比例，并按项目的敏感性（是否为事实性问题、是否为封闭式问题、是否难以回答）来分类项目，我们会发现：在敏感问题上，访谈员方差比例略高；在事实性与非事实性问题之间没有明显差异；但在开放式问题上比例较高；在容易与困难回答的问题之间也没有明显差异。已有许多论文试图分类并找出哪些问题类型会产生更大的访谈员效应，但结论并不完全一致。

然而，如果我们将所有这些特性（非事实性、敏感性、开放性、难以回答）都视为有害的项目属性，并按这些有害属性的数量对项目进行分组，那么我们会看到，随着有害属性的增加，访谈员效应对聚类方差的贡献比例确实在上升。

与邮寄调查的对比 📬

我之前提到，这项研究中也包含了邮寄调查。下图将每个项目在邮寄调查中的设计效应（Y轴）与在面对面调查中的设计效应（X轴）进行对比。尽管邮寄调查的聚类程度与面对面调查相同，但您可以看到，与邮寄调查相比，两项面对面调查的设计效应都更大，因此点都位于对角线的右侧。这为我们在面对面调查中存在显著的访谈员效应（叠加在抽样点效应之上）提供了强有力的论据和实证证据。

访谈员效应的其他原因 🤔

导致访谈员效应的其他原因还包括：隐藏的筛选问题、术语不清晰（访谈员对这些术语的解释方式不同）、回答期望不明确，或者访谈员临时引述的答案等。

但特别是术语不清晰、追问方式以及如何正确理解问题，这些因素都可能促成访谈员效应。这也是为什么在学术界经常讨论另一种访谈技术——对话式访谈——的原因之一。

本节课中，我们一起学习了标准化访谈技术的目标与操作指南，并通过一项精心设计的研究，深入探讨了访谈员如何影响调查数据的方差。我们发现，在面对面调查中，访谈员效应是真实存在且不可忽视的，尤其是在处理敏感、开放式等问题时。这为我们理解数据收集过程中的潜在误差来源，以及思考如何改进访谈技术（如下一节将介绍的对话式访谈）提供了重要基础。

047：对话式访谈 🗣️

在本节课中，我们将从“意义标准化”而非“措辞标准化”的角度，继续探讨标准化访谈。我们将对比传统的标准化访谈与新兴的对话式访谈，分析各自的优缺点，并通过实证研究数据来理解它们如何影响调查数据的质量和成本。

上一节我们介绍了标准化访谈的基本原则，本节中我们来看看另一种视角：对话式访谈。

标准化访谈回顾

标准化访谈的目标是确保不同受访者的回答具有可比性。其核心原则是尽可能保持访谈实施过程的所有属性恒定，尤其是问题的措辞。这旨在通过减少不同访员之间的行为差异，来降低访员相关的误差或访员方差。

以下是标准化访谈的标准操作流程：

初始提问：访员严格按照既定措辞读出问题。
中立追问：如果受访者的回答不在预设选项内，访员使用中立、非引导性的方式进行追问。例如：“我再重复一遍问题”、“我们需要一个数字”、“您能说得更具体一些吗？”。

示例：

访员：“在过去四周里，您在不戴眼镜或隐形眼镜的情况下，视力是否足以阅读普通新闻报纸？”
受访者：“我戴老花镜。” （这描述了个人的具体情况，但未回答“是”或“否”）
访员：“好的，我再读一遍问题……” （中立追问）
受访者：“不能。” （可接受的答案）

理论上，通过提供中立追问，受访者会给出可接受的答案。

标准化访谈的优缺点

优点：

访谈速度快，有助于降低访员成本。
理论上能减少访员效应。
确保所有受访者接收到完全相同的提问材料。

缺点：

阻碍了“意义共建”——即对话双方通过来回交流以确保相互理解的过程。
可能导致误解，进而产生不准确的答案。

认识到这些局限后，Suchman 和 Jordan 提出，严格的措辞标准化可能会损害回答效度（即答案的准确性），因为受访者可能无法按设计意图理解问题。这不一定影响信度（即回答的一致性），但可能导致受访者始终以错误的方式理解问题。

他们主张，访员应被授权使用“意义共建”等对话资源来提升答案的效度。这种替代方法的核心理念是：允许访员说任何必要的话，以确保受访者按设计意图理解问题。

两种访谈方式背后的意义理论

这两种不同的访谈方法基于对“意义”的不同看法。

标准化措辞的理据（信息传递模型）：意义存在于词语之中。如果两位受访者听到相同的词语，他们就会获得相同的意义。其理念是：说话者将想法转化为词语，听者听到词语后激活相同的意义。与此配套的观点是，预测试可以消除大多数受访者可能遇到的主要理解错误。
对话式访谈的理据（协作理论）：意义基于协作。对话参与者需要通过交谈来确保双方相互理解、达成共识。这就是“话语必须被共建”的含义。与此配套的观点是，预测试无法预见多样化的受访者样本中所有可能的歧义。因此，在访谈中需要澄清，访员可以帮助受访者根据其特定情况理解问题。

对话式访谈的实施与实证比较

在对话式访谈中，访员和受访者共同努力，确保受访者按设计意图理解问题。访员先按既定措辞读出问题，然后说任何必要的话来确保理解、共建意义。这通常包括澄清问题中的概念。目标是标准化“意义”，即使措辞可能因受访者而异。

已有若干研究对这两种技术进行了实证比较。Schober 和 Conrad 的一项研究训练了两组访员，一组使用严格标准化技术，另一组使用对话式（灵活）技术。受访者基于虚构场景（研究者已知正确答案）回答问题。

示例问题：“Kelly 是否购买或支付了家庭家具的费用？”

简单场景：购买了一张价值149美元的边桌（桌子明确属于家具）。
复杂场景：购买了一盏落地灯（落地灯是否算家具取决于定义）。

以下是研究结果：

回答准确率对比：

对于简单场景，无论是标准化访谈还是对话式访谈，回答准确率都很高（约97%）。
对于复杂场景，标准化访谈的准确率很低（约27%），而对话式访谈的准确率则高得多（约91%），因为访员可以澄清概念。

关于访员误导的担忧：数据显示，访员向受访者提供的信息绝大多数是准确的。

成本权衡：对话式访谈的缺点是澄清概念需要更多时间。下图展示了这种权衡：标准化访谈（左下点）对于复杂场景准确率低（~27%），但访谈速度快（平均约4分钟）；对话式访谈（右上点）准确率高得多，但代价是访谈时间显著延长。

（注：此处为文字描述，原讲义中应有展示准确率与时长关系的散点图。）

现实世界中的复杂情境频率

上述实验室研究中，复杂情境的频率被实验操控为50%。在现实世界中，复杂情境可能没那么频繁，因此提供澄清的收益可能会降低。那么，复杂情境在实际中有多频繁呢？

在现实情境中，我们很难直接测量受访者的理解程度或答案的准确性。但我们可以通过考察回答一致性的变化来推断。Conrad 和 Schober 进行了一项重访研究：

所有受访者首次接受标准化访谈。
第二次访谈时，一半受访者接受标准化访谈，另一半接受对话式访谈。

逻辑：如果对话式访谈改善了理解，那么那些首次标准化访谈中可能因无法获得澄清而误解问题的受访者，在后续的对话式访谈中获得澄清后，更有可能改变他们的答案。

结果：与两次标准化访谈相比，从首次标准化访谈转为后续对话式访谈的受访者中，改变答案的人数多出11%。这11%可被解释为此样本中这些问题上受益于澄清的歧义情境（即复杂情境）的频率。同时，这些对话式访谈比后续的标准化访谈平均长约4分钟（9分钟 vs 5分钟）。

对话式访谈对观点类问题的效果

对话式访谈对事实/行为类问题有效，那么对观点类问题是否同样有效？Hubard 等人的研究也使用回答变化来评估准确性，他们比较了3个事实性问题和7个关于经济和疲劳驾驶的观点性问题。

操作方法：首次访谈（生产性访谈）对所有受访者都是标准化的。重访时，一半受访者接受对话式访谈（访员可提供定义），另一半接受标准化访谈。

对于观点性问题，定义既包括问题中的概念，也包括回答选项的标签（例如，“极其危险”定义为“每次这样做都会导致事故”；“一点也不危险”定义为“永远不会导致事故”）。

结果：无论是事实性问题（左图）还是观点性问题（右图），对话式访谈都比标准化访谈引发了更多的回答变化。这表明，对话式访谈对于观点性问题的效果与对事实性问题一样好。

（注：此处为文字描述，原讲义中应有展示事实与观点问题回答变化率的柱状图。）

总结 📝

本节课中我们一起学习了标准化访谈与对话式访谈的核心区别与权衡。

标准化访谈：原则上通过向所有受访者呈现相同措辞并仅使用中立追问，来减少访员对答案的影响。访员不能像日常对话那样进行“意义共建”。尽管可能得到看似合格的答案，但准确性可能受损。
对话式访谈：多项使用不同测量方式的研究表明，它能提高答案的准确性。但代价是增加了访谈时长，因为澄清概念需要时间。
适用范围：这种方法在改善问题理解的同时增加访谈时长的效果，对于行为类问题和观点类问题是相似的。

因此，实践者需要在更长、可能成本更高的访谈与更高的受访者按设计意图理解问题的确定性之间进行权衡。

在下一节中，我们将更深入地探讨在本节中多次提及的“访员方差”这一概念。

048：概念界定 📝

在本节课中，我们将要学习如何将研究中的抽象概念转化为具体的调查问题。这是设计有效问卷的第一步，确保我们能够准确测量想要了解的内容。

上一节我们讨论了访员的影响，本节中我们来看看如何从“项目”（即调查问题）的层面入手，减少测量误差和偏差。第一步就是“找到正确的问题”。

从研究问题到结果构想

当你计划一项调查时，首先要思考你的研究问题是什么，以及你期望看到什么样的结果。这两点至关重要，需要与领域研究者充分讨论。否则，你可能会遗漏调查中本应包含的关键项目。

以下是开始设计前需要明确的两个步骤：

明确研究问题与预期结果：清晰地定义你想知道什么，并设想最终的数据分析图表会是什么样子。
将抽象概念转化为问题：将宽泛的研究概念分解成可以提问的具体组成部分。

分解抽象概念

将复杂概念转化为可测量的问题，关键在于将其分解为多个维度。这有助于我们最终提出具体、可回答的问题。

以“社会资本”这一抽象概念为例。社会资本指的是个人可以从其社会关系网络中获取的资源。直接询问受访者“你有多少社会资本？”是无效的。我们需要将其分解。

以下是“社会资本”概念的一种分解方式示例：

关系质量
- 信任
- 互惠
关系结构
- 空间位置
- 规模
- 类型
  - 正式关系
  - 非正式关系
    - 家人
    - 朋友

通过这样的层层分解，我们最终可以针对“你信任你的邻居吗？”或“你与家人联系的频率是？”这类具体维度设计问题。

应用练习：课程满意度

让我们以评估一门Coursera课程的满意度为例，练习概念分解。满意度是一个整体抽象概念，通常由几个主要方面构成。

以下是“课程满意度”可能包含的维度：

课程内容
- 内容量是否合适
- 主题是否相关
- 是否涵盖了期望的所有元素
授课教授
- 教授的个人魅力（在线课程可能不明显）
- 教授传达的知识深度
- 教学清晰度

你可以根据实际情况填充更多相关子维度。完成分解后，你就有了设计具体问题的基础。

检查匹配度与设计考量

将概念分解并初步转化为问题后，必须检查其匹配度。你需要自问一系列问题，以确保设计出的问卷既能收集到所需数据，又不会给受访者造成不必要的负担。

以下是设计时需要检查的关键事项列表：

测量需求：你计划如何组合变量来测量核心概念（如满意度）？对这些变量有何统计要求？
量表设计：你需要哪种类型的量表（如李克特量表）？选项需要分组还是更分散？
后续分析：你打算用这些数据做什么分析？
分组报告：你希望按哪些群体（如性别、年龄）来报告结果？务必在问卷中包含用于分组的背景问题。
解释差异：你是否想解释不同群体间的差异？需要哪些变量来解释？

制定详细的分析计划是避免上述问题的关键。它能显著降低遗漏关键项目或问卷冗长的概率，并帮助确定问题的优先级，合理利用问卷空间。

评估问题的常见缺陷

最后，你需要评估初步设计的问题是否存在常见缺陷。确保自己了解一般的回答过程及与之相关的问题行为，这能帮助你避开许多陷阱。我们将在后续章节专门讨论这些常见问题。

本节课中我们一起学习了概念界定的完整流程：从明确研究构想，到将抽象概念分解为可测量的维度，再到根据分析需求检查问题设计。这是构建一份科学、有效问卷的基石。

049：应答过程：理解阶段 🧠

在本节课中，我们将要学习调查应答过程中的第一个关键阶段：理解阶段。受访者需要准确理解问卷问题的含义，才能提供有效的回答。我们将探讨理解过程中可能出现的三类问题，并了解它们如何影响数据质量。

上一节我们介绍了调查应答过程的整体模型，本节中我们来看看其中的第一个阶段——理解阶段。受访者必须首先理解他们被要求做什么。这个阶段被称为理解阶段。

理想情况下，受访者能毫无问题地完成这个阶段。但我们关注的焦点往往是他们可能遇到的问题。他们可能在理解阶段误解问题，实际上回答了一个与问卷设计者意图不同的问题。

理解调查问题的问题至少有三类：

一些与词语及其含义有关，这被称为词汇问题。
另一些出现在单个词语组合成整个句子（即问题）时，这涉及到问题的字面意义。
还有一类是受访者通过语用推理过程来理解说话者（即问卷）的真实意图，这常常与字面意义形成对比。

词汇问题与词语含义

词汇处理是指理解问题中单个词语的含义。问题在于，同一个词对不同的人可能意味着不同的事物。

以下是一个关于词汇处理及其可能引发问题的例子。

在Suusbririck及其同事的一项研究中，他们询问受访者的烟草使用情况。在访谈后，他们进行了一项后测，以了解受访者如何解释问题中的短语。例如，对于问题“在你的一生中，你是否吸过至少100支香烟？”，他们提供了对短语“吸一支烟”的三种可能解释：

即使只吸一口。
吸完整支或大部分。
吸了至少几口。

结果显示，虽然超过一半的受访者认同第一种解释（即使只吸一口），但其余受访者大致平均地分布在另外两种解释之间。这表明，同一个短语可能被不同的人以截然不同的方式解读。

这会影响受访者提供答案的质量。Suusbririck和她的同事在访谈和解释后测之后，重新询问了原始问题，并给一半的受访者提供了词语的定义。他们发现，提供定义导致受访者在第一次和第二次回答之间发生更多改变。这意味着受访者最初对问题的理解可能与设计者的意图不同，因此在获得定义后改变了答案。

事实上，误解可能引发超出特定问题本身的问题。他们发现，10%的受访者改变了他们在筛选问题上的答案。筛选问题决定了后续问题序列的内容。总体而言，受访者对单个词语理解的差异会影响他们给出的答案及其准确性。

语境的影响

在解释问题中的词语时，受访者会受到这些词语出现语境的影响。

一种语境是问题语境或问卷语境。具体来说，受访者用于回答同一问卷中先前问题的信息，会影响他们解读当前被问到的问题的方式。

以下是Schwartz及其同事研究中的一个例子。他们发现，如果先询问受访者关于婚姻满意度的问题，再问整体生活满意度，那么这两个问题的答案高度相关，就好像受访者在回答更一般的整体生活满意度问题时，仍在思考婚姻满意度。如果颠倒问题的顺序，先问更一般的问题，这种相关性则大幅下降。这是因为当被问及整体生活满意度时，你可能会想到生活满意度的任何维度，因此当婚姻满意度问题紧随其后时，你就不太可能专门思考它。

另一种语境是视觉语境。这在网络调查中尤为常见，因为经常使用图像。Cooper及其同事的研究表明，视觉语境会影响受访者的答案，特别是他们评估自身健康的方式。他们在要求受访者评价自身健康的问题旁，展示了要么是明显健康、体格健壮的人，要么是生病、不太健康的人的图像。

他们发现，如果问题旁是健康人的图像，受访者对自身健康的评分会低于旁边是病患图像的情况。其原理是，受访者将自己的健康与图像中描绘的健康进行比较。如果图像描绘了一个非常健康的人，他们可能会想“我没那么健康”，从而给出较低的评分；反之，如果图像描绘了明显不健康的人，他们会想“我比那好”，从而给出较高的评分。当图像出现在问题左侧或前一页时，会观察到这种模式。然而，当图像以横幅形式呈现在页面顶部中央时，这种模式似乎会逆转甚至消失。这被称为“横幅盲区”，其理念是受访者和一般网络用户不会完全处理呈现在页面顶部中央的信息。

语义与语用问题

上一节我们讨论了词汇和语境，本节中我们来看看语义和语用过程。

语义过程涉及将单个词语的含义组合成整个问题或句子的意义。以下是一个语义过程中可能出现问题的例子，即受访者不太清楚如何将自己的情况映射到问题所涉及的概念上。

例如，问题：“您是否购买过或有家庭家具的开销？”受访者回答：“我买了一个落地灯。这算家庭家具吗？”这里的问题是，受访者能很好地解释单个词语，但他们不知道“家庭家具”这个概念是否应该包括“购买落地灯”这个具体事项。在标准化访谈中，访员无法为受访者澄清这一点；而在对话式访谈中，访员可以告知受访者本次调查适用的定义。数据显示，在这种被称为“复杂映射”的情况下，当访员能够澄清含义时（对话式访谈），回答的准确性比不能澄清时（标准化访谈）有显著提高。

我们将讨论的第三组过程称为语用过程或语用推理。我们对它们的理解主要源于Grice提出的“合作原则”。这是一种听众通过推断说话者的真实意图来理解其话语的方式。

Grice将合作原则阐述为四个子原则或“准则”：

量的准则：所说的话应包含交谈目的所需的信息，不应包含超出需要的信息。
质的准则：不说自知是虚假的话。
关系准则：说话要有关联。
方式准则：避免晦涩和歧义。

其理念是，通过牢记这些原则，人们可以在话语字面意思不通时理解说话者的意图。例如，如果说话者问我“你能把盐递给我吗？”，我可能不会将其理解为关于我递盐能力的问题（尽管字面上是），而是会做出几乎是自动的推断：她是在请求我递盐，并且我可能会照做。与此相关的是，说话者不会说无意告知我的话，因此我会在解读她其余话语时考虑到这一点。

那么，语用推理如何在回答调查问题中发挥作用呢？Schwartz及其同事的这项研究是一个很好的例子。他们问受访者：“你会说你的人生有多成功？”并要求他们在“一点也不成功”到“极其成功”的量表上回答。对于一半的受访者，“一点也不成功”旁边标有“-5”，“极其成功”旁边标有“+5”。对于另一半受访者，“一点也不成功”旁边标有“0”，“极其成功”旁边标有“10”。

结果如何？在0到10量表的组中，有34%的受访者选择了量表的低半部分（即0到5，代表较不成功的部分）。而在-5到+5量表的组中，只有13%的受访者选择了量表的低半部分。因此，当“一点也不成功”与一个负数相关联时，受访者更不愿意将自己定位在量表的不成功部分。作者认为，当“0”与标签相关联时，受访者将其解释为“没有成功”；而当负数与“一点也不成功”相关联时，他们将其解释为“存在失败”。这是一个受访者超越字面意义，利用这些数字来解释文字标签的例子，而这可能并非问卷设计者的本意。

对问卷设计的启示

以上我们讨论了理解过程中的各类问题和机制，那么它们对问卷设计有何启示呢？以下是一些可能的建议：

关于词汇问题：

尝试使用大多数人理解一致的术语。这可能非常困难，需要通过预测试来确认你所选的术语能被一致理解，但努力寻找这样的术语无疑是一个值得追求的设计目标。

关于语义问题：

提供定义（例如在网络问卷中可供点击查看，或通过培训访员在需要时提供）应有助于解决我们之前讨论的、在尝试将个人情况映射到调查概念时出现的模糊性问题。

关于语用问题：

一个好的目标是尝试阻止受访者做出非预期的推理，例如，避免使用不必要的设计特征。

本节课中我们一起学习了调查应答过程中的理解阶段。我们了解到，受访者对问题的理解会受到词汇歧义、问卷语境、视觉元素以及语用推理的深刻影响，这些都可能引入误差。为了获得高质量的数据，问卷设计必须仔细考虑并尽量减少这些理解上的挑战。下一节课，我们将继续探讨应答过程中的下一个关键阶段：记忆与回忆。

050：应答过程：信息提取 📝

在本节课中，我们将聚焦于调查应答过程中的“信息提取”阶段。这是继“理解问题”之后的关键步骤，受访者需要从记忆中检索相关信息来回答问题。我们将探讨记忆系统的类型、影响信息提取的因素，以及如何通过设计问题来优化提取过程。

上一节我们介绍了应答过程中的理解阶段，本节中我们来看看信息提取。

受访者在理解了问题及其任务后，需要检索相关信息。无论是事实性问题还是主观意见问题，这个过程都不可或缺。对于事实性问题，受访者通常需要回忆一个或多个事件。对于主观意见问题，受访者可能回忆一个已形成的观点；如果没有，他们则可能回忆相关话题的看法或其他考量因素，以便现场形成观点。核心在于，受访者需要从记忆中提取某些信息来回答几乎所有类型的调查问题。

记忆系统 🧠

认知心理学家和神经科学家区分了多种不同的记忆系统。一个根本的区分是工作记忆（或短期记忆）与长期记忆。

工作记忆是一种临时存储机制。在我们的语境中，它允许受访者记住听到的问题、维持部分结果并更新一个动态的计数。例如，当需要统计过去一年去诊所的次数时，或当需要记住访问员大声读出的回答选项时。
长期记忆是一种更持久的存储机制，尽管遗忘确实会发生。长期记忆至少包含三个不同的系统：
- 情景记忆：由个人生活中的事件组成，也称为自传体记忆。例如，“我周六吃了埃塞俄比亚菜”。
- 语义记忆：关于世界和自身的知识。例如，“树有叶子”或“我每周二参加读书会”。
- 程序记忆：关于如何做事的记忆，例如骑自行车。

前两者——情景记忆和语义记忆——与调查应答最直接相关。接下来，我们将重点讨论受访者在何种情况下更可能使用其中一种而非另一种。

提取策略：情景回忆 vs. 频率估计 📊

Gita Menon在1993年的一项研究中，要求受访者判断日常活动（如吃零食、洗头等）的频率。她选择这些活动是因为它们通常以规律或不规律的日程发生，并且每次发生时，要么与其他次相似，要么不同且有独特性。

以下是她的预测逻辑：

规律性：如果事件发生不规律，受访者无法获得稳定的“发生率”信息（一种语义记忆），因此更可能依赖情景回忆。
相似性：如果事件彼此相似，则难以区分和回忆单个事件，因此更可能依赖已知的发生率（如果存在的话）。

她预测，当事件不同且不规律时，受访者最可能使用情景回忆，最不可能使用发生率。相反，当事件相似且规律时，受访者最不可能使用情景回忆，最可能使用发生率。

研究结果在下表中得到了充分验证。表中的数字表示基于“发生率”回答的受访者百分比。根据她的思路，当受访者基于发生率回答时，就不是基于情景回忆。

事件相似性	事件规律性	基于发生率回答的百分比
相似	规律	~90%
相似	不规律	~70%
不同	规律	~40%
不同	不规律	~24%

例如，在右下角（事件不同且不规律），受访者只有24%的时间基于发生率回答，这意味着他们主要基于情景回忆回答，这与预测一致。相反，在左上角（事件相似且规律），受访者约90%的时间基于发生率回答，这很可能是因为事件相似难以回忆，但规律的发生率信息是可用的。

遗忘与提取线索 🔍

虽然情景记忆是一个相对永久的系统，但受访者当然会忘记生活中的事件。遗忘主要有两种机制：干扰和衰退，两者都随时间推移而加剧。

干扰：时间跨度越长，发生其他类似事件的可能性越大。类似事件的细节难以区分，容易融合成一个单一的、泛化的记忆。
衰退：随着时间流逝，事件在记忆中的“强度”减弱。大部分由衰退引起的遗忘发生在事件经历后不久，并持续很长时间。

下图（来自Tulving, Rips & Rosskopf）展示了不同领域的遗忘曲线（Y轴为正确回忆百分比，X轴为经过的月数）。以“同学姓名”的保持曲线为例，正确回忆率随时间下降，从高中毕业后的接近90%，到600个月（50年）后降至约50%。这表明即使经过很长时间，仍有一些记忆被保留，这给了我们希望通过提供提取线索来刺激信息回忆。

提取线索本质上是提醒物。例如，在“全国犯罪受害调查”关于购物的项目中，提供一份受访者可能购物的商店类型清单。如果受访者之前没有考虑从这些商店回忆购物经历，这个清单应该能帮助他们回忆。

一个悬而未决的问题是，受访者是只搜索清单中包含的条目，还是利用清单来定义一个更广泛的概念空间并进行更广泛的搜索。后者更理想，但我们尚不清楚这种情况发生的频率。

提取线索会影响受访者想到的内容。Cooper及其同事的研究很好地说明了这一点。他们问受访者“过去一年你参加了多少场体育赛事？”，并随问题呈现图片。图片分为“低频”图像（如职业棒球场）和“高频”图像（如业余少年棒球赛）。想法是，如果图片引导人们想到职业球场，他们参加职业球场赛事的可能性低于参加业余球场的赛事。事实上，“低频”图像导致了比“高频”图像更低的报告次数。

编码：记忆的起点 📥

最后，我想在本次关于提取的介绍中涵盖编码。如果信息最初就没有被记录在记忆中，我们可能很难刺激其后的回忆。

Lee及其同事的研究很好地证明了编码失败。该研究的主要发现是：

父母在带孩子接种疫苗后离开诊所时被拦截询问，他们对孩子几分钟前刚接受的疫苗回忆非常差，这表明他们根本没有将这些事件记录在记忆中。
更多证据表明事件未被编码：父母离开诊所后立即的回忆很差，但10周后的回忆并没有更差。这完全不符合我们之前在保持曲线中看到的那种典型的遗忘模式。
当向受访者提供日历（一种用于刺激回忆和提供提取线索的工具）时，回忆并未改善。
进一步证据：当任务变为识别任务（向他们展示疫苗列表并询问孩子接种了哪些）时，他们的表现并不比自由回忆时更好。而识别几乎总是优于回忆。识别没有优势这一事实表明，他们根本没有在记忆中记录这些信息。

编码特异性与情境复现 🎭

如果受访者确实编码了信息，已知可以通过使回忆时的情境与最初编码信息时的情境相匹配来改善回忆。这被称为编码特异性原则。

一个很好的例子来自Godden和Baddeley的研究。他们让深海潜水员在陆地或水下20英尺处学习单词列表，然后在相同或不同的环境中测试他们。潜水员在学习与测试环境相同时表现出远优于不同环境时的记忆力。

这一思想被扩展到情境复现的概念。它本质上认为，不必在回忆时物理上重现编码情境，而是可以让人们（调查受访者）在回忆时想象那个编码情境。他们可以尝试将自己放回到编码被要求回忆的信息时所处的状态。

Fisher和Quigley的一项研究很好地证明了这一点。在一项关于饮食回忆的研究中，他们要求受访者想象在食用后来被问及的食物之前所处的物理情境。当作者要求受访者这样做时，相对于未要求复现情境的情况，回忆得到了改善。

总结 📝

本节课中我们一起学习了调查应答过程中的信息提取阶段。我们了解到：

受访者依赖工作记忆处理即时信息，依赖长期记忆（特别是情景记忆和语义记忆）来回答问题。
受访者根据事件的规律性和相似性，在情景回忆和频率估计两种提取策略间进行选择。
遗忘主要由干扰和衰退引起，但长期记忆可能保留部分信息。
提供提取线索可以帮助刺激回忆，但其作用机制和效果可能因情况而异。
编码是记忆的起点，如果信息未被编码，后续提取将极为困难。
编码特异性原则和情境复现技术表明，匹配或想象原始编码情境可以显著改善回忆效果。

在下一节中，我们将讨论当受访者无法完全依靠回忆来回答问题时所使用的一系列补充过程，这些过程被称为判断与估计。

051：应答过程：判断形成

📘 概述

在本节中，我们将继续探讨应答过程。我们已经讨论了理解问题（应答过程的第一阶段）以及为回答问题而进行信息检索的关键过程。现在，我们将进入判断与估计阶段。这个阶段涉及一系列心理过程，用于弥补受访者记忆中的不精确或不完整信息。

🔍 判断与估计阶段

上一节我们介绍了信息检索，本节中我们来看看当记忆不完整或难以精确回忆时，受访者如何进行判断和估计。这个阶段的核心是使用心理策略来弥补记忆的不足。我们将通过两个现象来说明这一点：可得性启发法和频率估计。

可得性启发法

可得性启发法是一个非常有影响力的概念，由卡尼曼和特沃斯基提出。它指的是人们会根据回忆某类事件的难易程度，来推断该类事件发生的频率或概率。

以下是几个说明可得性启发法的例子：

字母R的位置：在一项研究中，受访者被问及是首字母为R的单词多，还是第三个字母为R的单词多。由于回忆首字母为R的单词更容易，参与者判断这类单词更常见。然而事实上，第三个字母为R的单词更多。
名人名字列表：在另一项演示中，研究者向受访者展示一个包含男性和女性名字的列表，并改变名单中名人的知名度。当女性名人比男性名人更出名时，参与者会判断列表中女性名字更多，尽管男女名字数量实际相等。这是因为回忆著名名字比回忆非著名名字更容易。
调查场景中的应用：施瓦茨及其同事进行了一项研究。他们要求受访者列出6个或12个自己表现得果断的情境，然后让他们评价自己的果断程度。结果，列出6个情境的受访者比列出12个情境的受访者认为自己更果断。这可能是因为列出12个情境更加困难，这种回忆的困难性导致受访者认为自己总体上并不那么果断。

频率估计

当精确回忆不可能或需要付出过多努力时，受访者会转向频率估计。

考虑以下问题：“在过去两年中，你献过多少次血？”对于一个每八周在固定地点献血的人来说，每次献血经历区别不大，因此很难逐一回忆并计数。

为了弥补记忆，受访者可能基于以下策略进行估计：

基于频率的估计：例如，“我每次有献血活动都去，大概每八周一次，也就是两个月一次。那么两年就是12次。”
基于定性印象的估计：例如，“我经常做这件事，所以去年大概有10次。”

如果能够回忆并计数事件，则无需估计。以下是三种主要的策略，每种都会导致不同类型的误差：

回忆与情景枚举：倾向于导致低估。原因是人们更容易忘记事件，而非虚构事件。由于遗忘，他们报告的事件数量会少于实际发生数量。
基于频率的估计：倾向于导致高估。原因是虽然频率本身可能很准确，但如果受访者未能考虑到例外情况（如某次未进行该行为），那么基于频率的报告就会成为高估。
基于印象的估计：倾向于导致高估，但原因与基于频率的估计不同。原因在于，将一个模糊的定性印象转化为数字，本质上需要将其映射到从0到无穷大的数轴上。这意味着他们的估计在低端有界（不能低于0），但在高端是无界的，这总体上导致了高估。

📊 策略选择的实证研究

康拉德、布朗和卡什曼进行了一项研究，他们要求电话受访者回答频率问题。对于每个问题，受访者还需报告他们是如何得出答案的，这些报告后来被编码为他们所使用的策略证据。此外，受访者还评估了事件发生的规律性和相似性。

以下是研究结果表格的核心解读：

枚举策略（情景回忆）：当事件的规律性和相似性较低时，受访者更倾向于使用枚举策略。此时报告的平均频率也较低，这表明受访者判断频率足够低，他们愿意并能够回忆被问及的各种事件。
频率检索策略：当事件的规律性和相似性较高时，受访者更倾向于使用基于频率的策略。此时报告的平均频率较高，这可能反映了相同的判断：实际频率太高，无法回忆和计数，因此使用基于频率的策略更具吸引力。
总体印象策略：当事件的规律性和相似性处于中等水平时，既不适用于枚举，也不适用于频率检索。此时报告的平均频率很高（平均12.3次）。这似乎表明受访者判断事件太多，无法全部回忆和计数，且无法获得准确的频率，因此最好的解决方案是利用总体印象进行估计。

👵 认知能力与策略选择

索尼娅·萨尔的一项研究探讨了记忆能力下降（如因衰老）如何影响估计策略的选择。

对先前数据的再分析：她根据年龄分析了康拉德等人的数据，发现年长受访者使用枚举策略的比例更低，而更多地依赖频率检索和总体印象策略。这可能表明年长受访者认识到自己的记忆局限，判断自己无法很好地完成基于回忆的任务。
实验室研究：在她的实验室研究中，年轻和年长的受访者从菜单中选择了他们使用的策略。研究发现：
- 对于年长受访者，选择频率估计和“频率并调整”策略的几率高于枚举策略；而年轻受访者则呈现相反模式。
- 对于年长受访者，选择总体印象（一种几乎不依赖记忆的策略）的几率高于枚举策略；年轻受访者再次呈现相反模式。
认知能力的影响：当受访者根据认知能力得分（而非年龄）进行分组时，也观察到了相同的模式。这进一步证明，受访者在选择估计策略时，会考虑任务的难度和自身的心理能力。

🎯 总结

本节课中，我们一起学习了应答过程的第三阶段——判断与估计。我们了解到，当记忆不精确或不完整时，受访者会使用可得性启发法和频率估计等策略来形成答案。不同的估计策略（如枚举、基于频率、基于印象）会引入不同类型的误差（低估或高估）。研究还表明，受访者会根据事件的特征（如规律性、相似性）和自身的认知能力，来判断并选择最合适的应答策略。

在下一节中，我们将讨论应答过程的第四阶段，即最后阶段——应答映射或应答格式化。这个阶段涉及受访者在封闭式问题中选择已提供的选项，我们将探讨选择应答选项时的一些考虑因素以及可能引入的误差来源。

052：应答过程：最终响应 📝

在本节课中，我们将学习调查应答过程的第四个，也是最后一个阶段：报告答案。这个阶段有时也被称为“映射与报告”阶段，受访者需要将之前理解、信息检索和判断估计阶段得出的结果，映射到问卷提供的具体答案选项中。这个过程本身也可能引入测量误差。

在上一节中，我们讨论了应答过程的前三个阶段。本节中，我们来看看最后一个阶段：报告答案。在这个阶段，受访者需要从提供的选项集中选择一个答案。本质上，这是一个映射过程：受访者需要将判断和估计的结果，转化为问卷上某个具体的答案类别。由于估计结果可能不精确，或者与现有选项不完全匹配，这种转化就可能带来误差。接下来，我们将通过一系列例子，展示在这个阶段可能出现的测量误差类型。

示例一：有序量表的选项间距 📏

第一个例子与有序量表中答案选项的视觉间距有关。这里存在一个概念上的中点与视觉上的中点的区别。受访者对量表的心理表征会同时受到这两者的影响。

Tranjo及其同事比较了量表选项均匀间距与不均匀间距时，中间选项被选择的情况。在不均匀间距的情况下，量表右侧的选项在概念上看起来更接近中心。

以下是两种量表的呈现方式。问题是：“在接下来的一年里，您生病到需要卧床一整天的可能性有多大？”

均匀间距量表：选项视觉上均匀分布，“一半可能”正好在视觉中心。视觉中点与概念中点对齐。
不均匀间距量表：“一半可能”在视觉上偏左，因此概念上位于其右侧的三个选项在视觉上显得更居中。

以下是实验结果：

当量表均匀分布时，58% 的受访者选择了右侧的选项。
当量表不均匀分布时，64% 的受访者选择了右侧的选项。

这反映了量表视觉外观对受访者选择的影响。

示例二：无序选项的顺序效应（首因效应）🔝

现在让我们看一个例子，展示在映射和报告无序选项时如何引入测量误差。

Krosnik和Alwin在《综合社会调查》中嵌入了一个实验。受访者被要求选择他们认为孩子最应具备的品质。这些品质通过“展示卡”在面对面访谈中呈现。

对于三分之一的受访者，选项顺序是标准顺序。
对于另外三分之一的受访者，选项顺序是反转顺序。

问题是：靠前的选项是否比靠后的选项被选择的频率更高？ 如果是，这就是所谓的首因效应。

以下是数据结果：

当选项以标准顺序呈现时，前三个品质（有礼貌、努力成功、诚实）被选择的频率，远高于当它们以反转顺序出现在第13、12、11位时。
对于在标准顺序中排在最后的品质（好学），其被选择的比例比它在反转顺序中排在第一位时低了10个百分点。

这清楚地表明了首因效应，且这种效应不依赖于具体选项内容，而主要取决于它们的呈现顺序。

Krosnik和Alwin将导致首因效应的机制称为“满意即停”，即受访者倾向于选择第一个“足够好”的选项。

示例三：听觉呈现的顺序效应（近因效应）🔚

当问题以听觉方式呈现（如访员读出）时，存在一种并行或互补的应答顺序效应，即近因效应。这在选项列表很短时尤为明显。

Schwartz及其同事的研究证明了这一点。他们的问题是：“您更喜欢哪种政府形式？” 选项只有两个。研究目标是：第二个被读出的选项是否比第一个被读出的选项更常被选择？

结果如下：

当“威权政府”作为第二个选项被读出时，其被选择的比例比作为第一个选项时高出11个百分点。
“民主政府”作为第二个选项时，也比作为第一个选项时高出9个百分点。

这表明，在听觉呈现的短列表中，存在对最后听到的选项的偏好，即近因效应。

对近因效应的解释通常归因于工作记忆容量。人们更容易忘记较早听到的选项，而更好地记住最近听到的选项，因此得名“近因效应”。

Knäuper通过以受访者年龄作为工作记忆容量的代理变量，探索了这一观点。她重新分析了Schuman和Presser关于住房问题的应答顺序效应研究数据，发现年长的受访者表现出比年轻受访者更明显的近因效应，而年轻受访者几乎没有表现出近因效应。这支持了工作记忆容量限制和遗忘早期选项是近因效应至少部分原因的观点。

示例四：开放式数值回答的取整现象 🔢

另一类能在映射阶段展示误差的问题是要求开放式数值回答的问题。具体来说，当受访者提供典型化或取整的报告时，这可能表明：

他们内在表征的不精确性。
他们通过创建类别来简化映射任务。
他们表达了不确定性或尴尬。

一个例子来自Tourangeau、Rips和Rasinski分析的《美国国家选举研究》数据。问题涉及在100分的“感觉温度计”上对总统候选人的偏好。分析将选择的数值分类为10的倍数、15或85、以及其他（未取整的）值。

结果显示，绝大多数受访者，无论是评价克林顿还是布什，都选择了10的倍数。也有大量受访者选择了15或85。

这表明受访者在此处极其频繁地进行取整。研究人员认为，这可能是受访者将100分量表转化为对他们而言更易管理、区分更有意义的量表。

示例五：敏感问题的应答编辑（动机性误报）🤫

映射和报告阶段误差的最后一个例子涉及受访者对敏感问题的回答。众所周知，当受访者自填问卷时，他们更可能如实回答、披露更多信息，并减少社会赞许性回答。

Tourangeau和Smith的研究清楚地记录了这一点。他们比较了在访员提问和自填条件下，关于吸毒等敏感话题的问题回答情况。数据是自填条件下与访员条件下，可卡因和大麻使用估计流行率的比率。

比率 > 1 表示自填条件下的报告流行率更高。
所有比率都大于1，表明人们在自填条件下更可能报告这种不良的（此处为非法的）行为。

为什么会这样？ 一种可能是受访者在报告答案前对其进行了编辑。这被称为动机性误报。支持这一观点的证据至少来自两方面：

误报是单向的，即朝向社会赞许的方向。
自填方式主要影响敏感问题的答案，而不影响非敏感问题。

因此，最可能的情况是，受访者是在编辑一个已经形成的回答（前三个阶段的结果），而不是有选择地检索关于自己的正面属性。

支持这一观点的一个证据是，回答敏感问题所需的时间比回答同等难度的非敏感问题更长。例如，Holtgraves观察到，当问题引言强调问题的社会赞许性时，应答时间会延长。这表明受访者在报告前会经历一个“编辑”步骤，考虑“我是否要修改这个答案？”，即使他们最终没有改变答案，也经历了这个编辑步骤。

本节课中，我们一起学习了调查应答过程的第四个阶段——报告答案。我们探讨了在这一“映射”阶段可能出现的多种测量误差，包括：

量表视觉间距对选择的影响。
视觉或听觉呈现中选项顺序导致的首因效应与近因效应。
开放式数值回答中的取整现象。
面对敏感问题时，受访者可能进行的动机性误报和答案编辑。

理解这些误差来源，对于设计能获取更准确数据的调查问卷至关重要。下一节，我们将探讨调查问题的不同类型。

053：事实与准事实问题

在本节课中，我们将学习如何设计关于事实与准事实的调查问题。我们将探讨什么是事实问题，什么是准事实问题，并通过具体例子理解它们之间的区别与设计挑战。

什么是事实与准事实问题？

本单元的主题是询问事实性问题或准事实性问题。我们将介绍这个概念，并从几个例子开始。

事实性问题可以是关于行为的问题，例如：在线购物、吸烟、看医生、锻炼、食物摄入量等任何活动。其中一些问题可能比较敏感，我们将讨论如何询问敏感问题。有些问题可能难以回忆，我们将讨论回忆问题及其相关的误差。而有些问题则纯粹是事实，你可能认为它们应该很容易提问，甚至更容易回答。

但有些所谓的“事实”实际上是准事实。准事实被定义为通常被视为具体和客观，但包含大量主观成分的事物。因此，它兼具事实性问题和态度性问题的特征。

区分事实与准事实

以下是我们的问题：你认为下列各项是事实还是准事实？请为列出的每一项做出选择。

前三个是永久不变的事实：你的出生日期、你的母语或你的出生国家。你可能不知道某些信息，但它们本身是事实。

波动性事实与敏感事实

其他事实则波动性大得多。例如，达到一定年龄后，记住自己的实际年龄会变得非常困难。记住出生日期很容易，但你的年龄一直在变化。时间过得很快，因此很难回答。

婚姻状况显然是波动的。至少在允许离婚的国家，这是一个事实，但它可能会改变。收入是波动的，因此本身就较难回答，而且它也可能是一个敏感问题。正如之前提到的，我们会有专门章节讨论这些问题。

准事实：以种族和族裔问题为例

接着是两个准事实，也就是我们所说的准事实问题，即关于种族和族裔的问题。

为什么它们是准事实？让我们思考一下：定义种族的属性是什么？让我简单介绍一下种族问题的历史。

一个目标曾经是（现在仍然是）监测和揭露压迫及其后果。当然，问题是：调查问题是衡量这一点的正确工具吗？如何衡量？是否进行衡量？这在不同国家和不同时期都有所不同。

美国人口普查实际上没有在超过两次普查中使用相同的定义。如今，种族和族裔问题通过自我报告和自我认同来收集，但在1960年之前，它是基于普查员观察来收集的。你可能会对此感到惊讶，但可以这样理解：如果你想衡量人们的经历，衡量他人如何看待他们可能不是一个坏主意，因此这有一定道理。

英国直到1991年才开始收集关于族裔群体的数据。许多其他国家也不这样做。在美国，鉴于其历史，如何最好地衡量这一问题一直存在很大争议。这场辩论中的一个权威机构是管理和预算办公室，它监督所有联邦统计机构的数据收集。

种族问题定义的演变

他们在1978年发布了一项政策指令，规定联邦机构应至少收集和呈现四个种族群体的数据：美洲印第安人或阿拉斯加原住民、亚洲人或太平洋岛民、黑人和白人。当时，不允许报告多种族。他们倾向于让人们自我认同，没有人应该告诉他们如何分类自己。

以下是一份旧的人口普查表格，虽然有些难以辨认，但你可以看到类别和有趣的标签，这些可能已不再常用。这份表格上没有提及多种族的可能性。

这在1997年的OMB指令中得到了改变。更倾向于承认种族的社会定义，并且它不符合任何生物、人类学或遗传标准。该指令建议包括以下列出的种族群体，但也允许报告多种族。

在2000年和2010年的人口普查表格中，种族问题如下所示。现在我们有了白人、黑人、非裔美国人或黑人的类别。保留了旧术语，因为对于一些年长的非裔美国人来说，这个词实际上并不冒犯，而是他们自我描述的方式。每次人口普查都会对此进行大辩论，值得关注。

表格上还有进一步的说明：如果一个人是西班牙裔或拉丁裔，应同时回答问题7和问题8。这是此处询问的进一步说明。

衡量种族和族裔的挑战

衡量种族和族裔存在一些挑战。一个挑战与概念的有效性有关，另一个与概念的可靠性有关，自我认知可能随时间变化。还有回答选择的挑战：这些类别是否真的互斥？对所有受访者都有意义吗？如何随时间进行比较？

请记住，这些问题可能在特定背景下被提出。早期我们讨论过格赖斯准则，背景创造了对话规范，这对种族和族裔问题也是如此。例如，这会决定西班牙裔与非西班牙裔问题以及附加种族问题的流程，因为按照现在给出的顺序，可以减轻背景效应。

背景通常提供了一个解释框架。我们在许多其他例子中看到，这可以解决歧义。弗雷德·康拉德和迈克尔·舍尔的研究是一个很好的例子。当然，它也可以引导受访者联想到相关项目。虽然你可能首先想到只有态度性问题会受到背景影响，但这对事实性问题也是如此。

事实问题案例：性别猜测研究

有时，就像衡量种族的旧方法一样，你会想：我们不能直接猜测吗？例如，受访者的性别是什么？为什么我们需要询问受访者的性别——另一个事实问题？在县调查、计算机辅助电话调查访谈中，性别经常被猜测。访问员被要求倾听，只有在不确定时才询问，甚至不鼓励询问。这些访问员的猜测随后被用于各种目的，有时用于筛选资格，有时用于过滤与性别相关的项目，在少数情况下也用于无回答调整或事后分层。

以下是一个来自全国性调查的例子。如果受访者的性别不明显，访问员会猜测，然后指示访问员询问：“如果不明显，请问：您是男性还是女性？”

我们进行了一项小型研究，有两个研究问题：A. 我们想知道我们的访问员在猜测受访者性别方面有多好。B. 我们想知道如果发生错误猜测，是否有任何预测因素。

为什么我们认为可能会发生错误？因为语言学家发现音调允许听者区分男性和女性的声音，但这些音调有重叠。所以问题是：我们真的能很好地区分男性和女性吗？这些通过声音进行的男女性分类是否真的与受访者的自我报告相符？你也可以认为，也许性别更像是一个准事实问题，而非纯粹的事实问题。

研究设计与发现

为了进行这项研究，我们使用了2008年至2010年间进行的28项电话民意调查。总共有超过20,500名受访者的数据可用于本研究。所有数据均在纽约波基普西的集中设施中收集。这些调查包括全国性调查和一些仅在纽约州进行的调查，该数据库中只有固定电话样本数据。

以下是受访者人口统计的描述，以及进行电话调查的访问员人口统计描述。总共有475名访问员。所有这些访问员都是经过培训的玛丽斯特学院学生，年龄在18至23岁之间。

每项调查的访问员都被要求猜测受访者的性别，然后稍后询问受访者。我的问题是：你认为错误分类的误差有多大？有多少猜测可能是错误的？总体错误率为8%。我们在不同性别群体中观察到不同的错误率，这很有趣：在女性受访者中，12.6%被猜测为男性；在男性受访者中，2.6%被猜测为女性。这是因为女性的音域更广，因此女性比男性更容易被错误分类。

有趣的是，这种错误分类在黑人群中比其他种族群体更常见。因此，你可以想象，特别是在黑人女性中，她们被错误分类的可能性最大。

我们还通过一些多变量模型（分层线性概率模型）研究了错误猜测的预测因素。与此研究相关的论文在课程网站上。在这里，你可以看到因变量（我们的误差，即访问员猜测与受访者报告之间的差异）以及一系列预测误差概率的访问员变量。

这里只提一个有趣的点：访问员经验（经验水平3和4，即更高水平的经验）似乎增加了访问员猜测的错误。我们后来在其他调查机构也证实了这一点。访问员经验可能产生不利影响，也许是注意力不集中，或者听过太多声音，我们不确定具体原因。但这是一条有趣的研究路线，我们在课程网站上放置了几篇手稿，如果你想了解其他研究中的这些效应。

总结与启示

总结一下，我们没有发现访问员年龄和种族作为错误猜测的预测因素有主要效应。但如果我们纳入交互效应，我们发现显著效应：女性受访者更可能被女性访问员错误编码，而非男性访问员；当受访者由非黑人访问员访谈时，非裔美国人比非黑人更可能被错误编码；非裔美国人访问员-受访者对相比白人对有更高的错误编码概率。

本节课中，我们一起学习了事实与准事实问题的区别。我们了解到，事实性问题涉及客观、可验证的信息，而准事实问题虽然看似客观，却包含主观成分，如种族、族裔和性别认同。通过性别猜测的研究案例，我们看到了即使是看似简单的事实问题，也可能因测量方式（如访问员猜测）而产生显著误差。这提醒我们在设计调查问题时，需要仔细考虑问题的性质、受访者的认知以及社会背景的影响，以确保数据的准确性和有效性。

054：记忆与回忆：行为频率报告

概述

在本节课中，我们将学习如何设计关于过去行为和事件的调查问题。我们将探讨受访者在回忆和报告过去信息时面临的挑战，并介绍一些提高数据准确性的方法。

上一节我们讨论了事实性问题的基本概念，本节中我们来看看当问题涉及过去的行为和事件时，情况会变得更为复杂。这主要围绕对过去特定事件和活动频率的提问。

回忆过去行为的挑战

当询问过去的行为时，受访者除了需要理解问题本身，还面临一项额外的任务：回忆。例如，问题“自2013年1月以来，您是否找过工作？”要求受访者理解“找工作”的含义，并回忆在过去数年内是否发生过此事。对于工作稳定的人来说，这很简单；但对于经历丰富的人，这可能颇具挑战。

另一种类型是询问事件发生的具体时间，例如“您第一次尝试吸烟是在几岁？”。这类问题在公共卫生调查中很常见，旨在测量某种行为的总体暴露程度或持续时间。

此外，还有关于活动种类和频率的问题，这属于自传体记忆范畴，通常更难准确回答。例如：

“自2013年1月以来，您有多少次在医院过夜？”——这需要理解、回忆，并进行估计或精确计数。
“在您成长过程中，您多久参加一次宗教服务？”——这种措辞通常鼓励受访者以频率或比率的形式回答。

接下来，我们将探讨这类问题面临的具体困难。

记忆的编码、存储与提取

信息回忆的准确性首先取决于它是否以及如何被记忆。以下是影响记忆报告错误的几个关键因素：

编码：信息必须进入长期记忆才能被回忆。研究表明，信息需要被认为是显著的或独特的才能被有效编码。然而，显著性因人而异。设计问卷时，需要考虑目标受访者群体，思考所问事件对他们是否重要、是否突出。
存储与提取：编码的深度影响信息的可提取性。如果记忆存储不牢固，提取就会困难。如果事件根本未被编码（例如，过于平凡或重复），则会导致漏报错误，而非有意的隐瞒。

这对问卷设计有重大启示：如果你测量的过去行为对受访者而言不显著，他们可能无法有效回忆，此时可能需要依赖其他数据源（如账单、收据）进行补充。

以下是一个研究实例，展示了即使对于刚发生的事件，回忆也可能出错：

研究案例：Roger Tourangeau 的一项研究显示，父母在带孩子看完医生后，被问及孩子接种了何种疫苗。尽管事件刚刚发生，父母对某些疫苗（如乙肝、百白破）存在大量漏报，而对其他疫苗（如麻疹、腮腺炎、风疹）则存在过度报告，净误差达到+17.1%。这表明，人们并非仅随时间推移而遗忘，有时可能从未准确知晓事件本身。

辅助回忆的方法

为了帮助受访者更准确地回忆，我们可以采用不同的提问方法：

以下是三种主要方法，按对受访者难度从高到低排列：

自由回忆：最难。例如，“您的孩子接种了哪些疫苗？”受访者需完全依靠自己回忆。
线索回忆：提供一些例子作为线索。例如，“您的孩子是否接种了诸如麻疹、百白破或乙肝等疫苗？”
再认：最容易。列出所有可能选项供受访者勾选。例如，提供一份完整的疫苗清单。

同理，询问“过去一年您使用过哪些社交媒体网站？”时，自由回忆非常困难，而提供列表进行再认则简单得多。

影响遗忘的因素与设计启示

信息的提取也受到遗忘类型的影响。以下因素会增加遗忘的可能性：

时间：事件发生越久远，越容易被遗忘。
显著性：事件越平凡、越不突出，越容易被遗忘。
重复性：事件越具重复性和常规性，回忆单个具体事件就越困难（例如，你记得自己喝咖啡，但不记得每一次）。

基于以上挑战，问卷设计可以采取以下策略以提高数据质量：

给予充足的回忆时间：允许受访者有时间思考和回忆。
提供示例线索：使用线索回忆法帮助激活记忆。
缩短参考期：询问更近时间段内的事件，降低遗忘程度。
使用事件史日历：提供可视化的日历工具，帮助受访者按时间顺序定位和回忆过去事件。

实践思考：这些问题容易回答吗？

请尝试计时回答以下问题，亲自体验回忆的难度：

您大学时期是否曾酒后驾车？
您是否服用过任何抗生素？
您开车时是否曾未系安全带？
过去一个月您去过电影院吗？
您的初吻发生在几岁？
去年您看过几次医生？

您可能会发现其中一些问题很难准确回答。例如，“初吻”的定义可能因人而异（是浪漫初吻还是儿时亲昵？），这属于理解问题。而“去年看过几次医生”则涉及对“去年”参考期的界定（是从今天算起往前12个月，还是指上一个自然年？）以及对所有就诊次数的回忆负担。

总结

本节课我们一起学习了设计关于过去行为频率的调查问题时面临的挑战。核心在于，受访者需要完成理解和回忆双重任务，而记忆的编码、存储和提取过程会受到事件显著性、时间远近和重复性等因素影响，导致漏报或误报。为了提高数据质量，问卷设计可以采用缩短参考期、提供回忆线索、使用事件史日历等方法。

下一节，我们将深入探讨“参考期”的设定以及如何帮助受访者重建过去事件的时间线。

055：记忆与回忆：回溯周期长度

在本节中，我们将探讨回溯周期长度及其对调查数据质量的影响。我们将了解参考周期与回溯周期的区别，分析回溯周期长度如何导致回忆误差，并讨论受访者如何通过估计或重建来报告过去的行为。

参考周期与回溯周期

上一节我们介绍了记忆与回忆的基本概念，本节中我们来看看与时间相关的两个关键术语：参考周期和回溯周期。

参考周期是指研究问题所关注、并最终用于估计的时间段。回溯周期则是指受访者为了回答问题而需要回忆的整个时间长度。这两者可能不同。

例如，调查在2014年中旬进行，但问题涉及整个2013年。那么，参考周期是2013年，而回溯周期是从2014年调查时点回溯到2013年初的整个时间段。受访者需要回忆整个回溯周期内的事件来回答关于参考周期的问题。

回溯周期长度与回忆误差

研究表明，回溯周期的长度与回忆误差密切相关。回溯周期越长，遗忘的可能性越大，测量误差也倾向于增加。

以下是关于回溯效应的一些研究发现：

查尔斯·坎内尔的研究：一项关于医院就诊报告的记录核对研究发现，从出院到接受访谈的时间间隔越长，受访者未报告的事件比例就越高。
- 出院后1-10周内访谈，3%的事件未被报告。
- 出院后51-53周内访谈，约40%的事件未被报告。
全国犯罪受害调查的发现：该调查尝试了不同的回溯间隔。比较“过去6个月”和“过去3个月”两种问法得到的年度受害率估计值，发现较短的3个月回溯周期反而报告了更高的受害率。这表明在更长的回溯周期中，遗忘导致了更低的报告率。

事件的时间定位与重建

通常，人们很难精确记住事件发生的具体日期，因为我们不会为每个事件存储一个时间标签。例如，很少有人能准确说出2013年3月12日做了什么。

然而，人们会利用一些地标性事件或对个人重要的相对时间点来帮助重建记忆序列，例如“在我上大学之前”或“在我结婚之后”。记忆并非连续线性的记录，因此问卷设计需要考虑信息在受访者头脑中的存储方式。

以下是可能用到的工具或策略：

使用日历辅助工具，帮助受访者回忆季节或月份。
针对社会性事件，使用社会定义的时期（如“上学期”）进行询问。
使用模糊的时间表述（如“最近”）。
采用事件史日历技术，通过重建受访者的个人经历时间线来定位事件。

报告策略：估计与重建

回忆过去行为时的另一个重要方面是报告策略：受访者是在进行估计，还是在努力重建实际事件？

一般来说，行为越频繁、越规律，受访者越可能使用估计策略。例如，询问“去年你喝了多少杯咖啡”，常喝咖啡的人很可能会根据“每天大约两杯”这样的常规速率来估算，即 年总量 = 365天 × 2杯/天。

相反，如果相关记忆越容易提取，受访者越不可能使用估计。但需要注意的是：

对于规律行为，记忆中以速率信息（如“每天两次”）的形式存储。
相似事件的数量越多，回忆起任何单一事件的概率就越低。人们会依赖一种更概括性的“图式”记忆，而非具体的情景记忆。例如，你记得自己通常每天刷三次牙，但可能不记得某天晚上没刷牙。这可能导致遗漏错误。
使用图式重建过去也可能导致遗漏。例如，在询问安全带使用时，受访者基于“我通常都系安全带”的图式回答，可能遗漏掉那些没系安全带的例外情况。

总结

本节课中，我们一起学习了回溯周期长度对调查数据的影响。我们明确了参考周期与回溯周期的区别，了解到更长的回溯周期通常会导致更高的遗忘率和回忆误差。我们还探讨了人们如何通过地标事件来定位过去，并分析了受访者根据行为的频率和规律性，选择使用估计或重建策略来报告过去行为，以及这些策略可能带来的误差。理解这些原理，有助于我们设计更科学的问题，以获取更准确的数据。

在下一节中，我们将进一步讨论可能导致信息提取困难的理解性问题，特别是在询问行为频率时。

056：记忆与回忆：理解与提取

在本节课中，我们将要学习调查问卷设计中的一个核心环节：如何帮助受访者从记忆中准确提取信息。我们将探讨理解与回忆过程中的潜在误差，并介绍一系列提升事实性问题回答质量的具体方法。

在之前的章节中，我们通过早期示例提到了“理解”可能存在的问题。本节我们将深入探讨与误差相关的最后一个环节：记忆与回忆。

理解受访者如何定义问题中的“对象”至关重要，因为这直接影响到他们从记忆中检索信息的过程。这个过程取决于受访者对问题的理解、他们在记忆中搜索的内容、记忆中存在的相关痕迹、问题对象是否与这些记忆痕迹匹配，以及他们是否认为自己知道答案。

为了帮助回忆，可以考虑相关的“记忆簇”。如果询问一个特定事物，并围绕它询问一系列相似事物，受访者可能更容易回忆起这些信息。我们将此总结为“为检索设定情境”。在设计问题时，应考虑在何处设定这种情境，例如在问题的引言部分、周围的其他问题、问题的措辞，甚至封闭式问题的答案选项中。通过引言陈述，可以帮助提高回忆类问题的准确性。

例如，在犯罪受害调查的语境下，可以借鉴“全国犯罪受害调查”的引言：“请告诉我过去六个月内可能发生在您身上的任何犯罪行为。”这是一个相当简短的引言。我们稍后会展示一个变体。

另一方面，“全国针对妇女暴力行为调查”的引言则写道：“我们特别关注了解女性所经历的暴力，无论是来自陌生人、朋友、亲属，甚至是丈夫和伴侣。”这里，你在引言中设定了一个情境，提醒受访者犯罪可能来自多种人群，而不仅仅是他们首先可能想到的特定陌生人，从而改变了他们的关注焦点，指向记忆中可能存在的其他信息。

这引出了我们之前提到的“详细提示法”，它有助于定义回忆对象。在设计问卷时，我们希望使用提示来聚焦对特定对象的检索。但这样做时，需要谨慎注意两点：

提示可能会干扰其他信息的检索，导致受访者过度聚焦于提示而忽略其他内容。
提示也可能隐含地排除未被提及的对象。如果受访者认为提示列出的是一份完整清单，而不仅仅是记忆辅助，那么也可能出现问题。

因此，详细提示法是改进问卷的一个建议性方法，但其实际效果仍需在问卷实地测试前进行检验。这也是我们在本系列课程中设有专门单元讲解问题测试的原因。

让我展示一个在犯罪受害调查中应用详细提示法的例子。左边是一系列可能的问题，问题本身提供了情境和提示，例如：“您的口袋被扒窃过吗？”、“有人偷过属于您的东西吗？”、“当您不在家时，有东西被偷吗？”，最后是一个总结性问题：“过去六个月里，您是否有任何东西被偷？”。

另一方面，右边展示的详细提示法则是一个长问题：“是否有属于您的东西被偷，例如……”，然后列出了各种各样的物品（实际上种类繁多，幻灯片都无法完全展示）。正如之前提到的，David Cantor 在“全国犯罪受害调查”中进行了大量研究。

以下是使用两种不同方法（总结性问题 vs. 详细提示法）得到的每千人受害率数据。可以看到，使用详细提示法的问题，无论是在暴力犯罪、财产犯罪还是家庭犯罪方面，都获得了更高的报告率。

现在，让我总结一下改进事实性问题回答的方法：

缩短回忆期：较短的回忆期更佳，可以克服遗忘率。
控制问卷长度：较短的问卷总有益处，可以克服受访者的疲劳感，并有助于记忆。
设计合适的问卷结构：设定提示和情境，帮助受访者回忆。
利用记录辅助：除了记忆，还可以尝试使用记录来帮助回忆。
提高项目的显著性和动机：尝试提高特定项目的显著性和受访者进行回忆任务的动机。
使用列表或日记提示：例如，观看电视的情况常通过日记来询问，因为即使只是两周内发生的事情，要全部记住也太多了。
使用触发问题或将问题分解：可以将一个问题分解为多个子部分，这样就不必依赖提示，而是通过询问属于该特定问题的所有不同要素来帮助受访者。

在本节课中，我们一起学习了记忆与回忆在调查中的重要性，理解了设定情境和提供详细提示如何帮助受访者更准确地提取信息，并总结了一系列提升事实性问题数据质量的具体策略。在下一节中，我们将继续探讨如何询问敏感问题。

057：敏感问题提问方法

在本节课中，我们将学习如何在调查问卷中处理敏感问题。我们将探讨敏感问题的定义、其带来的后果，以及如何通过特定的提问技巧来最小化这些后果，从而获得更准确的数据。

敏感问题的定义与类型

上一节我们介绍了调查设计的基本概念，本节中我们来看看什么是敏感问题。敏感问题通常指受访者可能不愿如实回答的问题，原因包括隐私、法律风险或社会污名。

敏感问题主要分为三种类型：

私人信息：例如收入、家庭住址等身份标识信息。
非法行为：涉及违法或可能带来法律威胁的行为。
社会污名化行为：受访者认为不符合社会规范或研究者期望的行为。

敏感程度因人而异，取决于个人感知和所处环境。例如，拥有借书卡在今天可能已不再敏感，因为许多资料可在网上获取。

敏感问题带来的后果

了解了敏感问题的类型后，我们需要认识在问卷中包含这类问题可能导致的后果。主要有以下三点：

单位无回答率升高：如果受访者提前知道调查包含敏感问题，他们可能直接拒绝参与。
项目无回答：即使参与了调查，受访者也可能跳过具体的敏感问题不回答。例如，在许多调查中，约有25% 的受访者拒绝透露收入信息。
误报：受访者可能为了符合社会期望而修改答案，导致对社会期望行为过度报告，对不受欢迎的行为或态度报告不足。

导致答案编辑的原因

那么，为什么人们会编辑自己的答案呢？以下是几个主要原因：

社会规范压力：例如，“你在上次选举中投票了吗？”这个问题，人们可能因为感到“好公民应该投票”的社会压力，即使没投票也会回答“是”。
避免尴尬或保护隐私：受访者希望避免难堪或出于保密考虑。
有需要隐瞒的事情：话题越敏感，误报的可能性越高。
有他人在场：如果回答时房间里有旁听者，受访者更可能给出符合社会期望的答案。

影响报告准确性的因素

除了问题本身，其他因素也会影响受访者对敏感问题的报告准确性：

数据收集模式：是否有访问员在场影响巨大。例如，在自填式问卷（无访问员、无旁人在场）中，对敏感行为的报告率通常更高。
问题措辞技巧：通过特定的提问措辞方法，可以有效改善敏感信息的报告质量。这将是下一节重点讨论的内容。

本节课中我们一起学习了敏感问题的核心概念、其可能导致的三种主要后果（拒访、不回答、误报），以及影响答案准确性的关键因素（如社会规范和收集模式）。理解这些是设计出能获取真实数据问卷的第一步。下一节，我们将深入探讨改善敏感问题报告准确性的具体提问技巧。

058：敏感问题提问技巧

在本节中，我们将学习如何在问卷调查中设计关于敏感话题的问题。直接询问敏感信息可能导致受访者因社会期许偏差而给出不真实的答案。因此，我们将介绍一系列技巧，通过调整问题语境、措辞和结构，来鼓励更诚实、准确的回答。

利用问题语境

上一节我们提到了社会期许偏差的挑战，本节中我们来看看如何通过设置问题语境来缓解它。问题的回答选项和其所在的一系列相关问题，共同为敏感问题提供了语境。将敏感问题置于一组相关的问题中是个好方法。理想情况下，可以营造一种氛围，暗示所询问的行为是可接受的，从而尽可能消除社会期许带来的压力。

以下是利用前置问题设置语境的例子。根据你询问的是不良行为还是良好行为，你可以提供一种“许可性”或“限制性”的语境。

一个文献中的经典例子是关于饮酒行为的提问顺序：

首先询问：“总体而言，你会说你比朋友喝得多、喝得少，还是差不多？”
接着问：“你朋友中喝得最多的那位，通常喝多少？”
最后才明确问：“你自己通常喝多少？”

你可能只对第三个问题的答案感兴趣，但通过前两个问题，受访者已经间接透露了一些信息，并将其行为置于朋友行为的语境中，从而能更轻松、诚实地回答关于自己的问题。这有助于受访者逐步进入状态。

使用熟悉的措辞

另一种帮助受访者放松的方法是使用他们熟悉的词语。在标准化问卷中，虽然每位受访者接收的刺激（问题）是相同的，但可以尽量使用贴近日常对话的、自然的措辞。例如，在询问性行为时，需注意不同亚文化群体使用的语言可能不同。真实的措辞选择会以不同方式影响测量结果，正如本课程早期讨论过的访员变异效应，在这里可能体现得更明显。

简化回答要求

简化任务也能让受访者更轻松。例如，询问收入时，或许不需要精确的连续数字。你可以使用分类选项或响应量表。

示例（收入分类）：

低于3万元
3万-8万元
8万-15万元
15万元以上

另一种方法是使用“展开式分档”提问：“您的收入高于还是低于X元？”这能引导受访者逐步给出答案类型。

使用代理报告

有时，可以不直接询问受访者本人，而是请其他知情者（代理报告人）来报告该行为。当然，这存在权衡：信息质量可能下降，因为他人可能了解不足；并且，根据代理人与目标对象的关系，测量误差也会不同。因此，如有可能应避免使用，但需知一些调查在无法联系到目标对象时，会常规使用代理受访者。

刻意引导

此技巧可用于根据语境减少过高或过低的报告率。具体做法是在问题开头加入一个前提或引用权威。

示例（减少低报）：
“近期研究发现，适量饮用红酒对健康有益。您过去一周是否饮用过红酒？”

通过引用“研究”和“有益”，为问题增加了权威性和正面语境，使报告该行为变得更容易。

另一种方式是将敏感话题嵌入威胁性较低的话题中，以降低其显要性，让受访者更自在。

示例（假设行为普遍化）：
“即使最冷静的父母有时也会对孩子生气。在过去七天里，您的孩子做过让您生气的事情吗？”

这个问题预先假设该行为是正常的，希望促使父母透露实情。

你也可以在问题中假设某种行为以特定频率发生。

示例（假设行为存在）：
不问“您吸烟吗？”，然后接着问“每天吸多少支？”，而是直接问：“您平均每天吸多少支烟？”

这暗示吸烟是普遍现象，使吸烟者更容易回答。

对于期望发生的行为（如投票），可以为其未发生提供理由。

示例（为未发生行为提供理由）：
“很多人因为太忙而没时间投票。您在上次选举中投票了吗？”

调整时间框架

请注意，询问与不良行为相关的问题时，近期行为比过去行为更具威胁性。许多政客可能不介意透露大学早期使用过非法药物，但如果这是当前或上个月的行为，问题就严重得多。

因此，可以先问“您是否曾经……”，再问当前行为。因为如果已经承认“曾经做过一次”，那么承认“目前仍在做”会相对容易。

同理，对于良好行为，承认“从未做过”比承认“最近一次没做”更具威胁性。以投票为例，如果说“我通常都投票，只是上次选举碰巧没投”，会比直接问“您在上次选举中投票了吗？”（而无法表明自己通常投票）更容易，也更能减少因社会期许而谎报的压力。事实上，当问卷未包含“通常”选项时，受访者常会主动补充说明，以抵消社会期许的影响。

在所有技巧中，你都需要在社会期许偏差与获取足够多的稀有事件观测值之间进行权衡。

总结与预告

本节课中，我们一起学习了多种直接询问敏感问题的技巧，包括：利用问题语境、使用熟悉措辞、简化回答要求、考虑代理报告、进行刻意引导以及调整时间框架。这些方法的核心是通过设计降低受访者的心理威胁感，鼓励更诚实的回答。

下一节，我们将探讨其他更为间接的提问技术，例如随机化回答。这类技术通常只能提供总体层面的估计值，且有些实施起来较为复杂。我们还将讨论如何通过不同的调查设置来提供更多隐私感，增强回答敏感问题时的保密性。

059：敏感问题间接技术

在本节课中，我们将学习一种用于收集敏感问题数据的特殊方法——随机化应答技术。这种方法的核心是保护受访者的隐私，从而鼓励他们提供更诚实的答案。

上一节我们讨论了直接询问敏感问题可能面临的挑战。本节中，我们来看看如何通过间接技术来克服这些挑战。

随机化应答技术原理

随机化应答技术的核心思想是：受访者会给出一个答案，但作为研究者的你，无法知道这个答案具体对应的是哪个问题。这是如何实现的呢？

以下是实现该技术的关键步骤：

配对问题：将一个敏感问题（例如，“你上个月收到过停车罚单吗？”）与一个中性问题（例如，“你母亲的生日在六月吗？”）配对。这个中性问题的答案分布必须是已知的。例如，我们可以假设大约有1/12的受访者母亲生日在六月。
使用随机化设备：你需要一个概率已知的随机化设备，例如一枚公平的硬币。你知道它出现正面和反面的概率各为50%。
回答流程：你要求受访者使用随机化设备（如抛硬币）。根据结果（例如，正面回答敏感问题，反面回答中性问题），受访者只需回答“是”或“否”，而无需告知研究者他们回答的是哪个问题。

数据分析与推断

现在，我们只得到一组总的回答结果。假设在我们的调查中，总共有20%的人回答“是”，80%的人回答“否”。

因为我们知道，在所有被问到“母亲生日在六月”这个问题的人中，理论上应有约1/12（约8.33%）的人会回答“是”。在我们的设计中，有50%的受访者（因为硬币反面概率为50%）会被问到这个问题。因此，这50%的受访者中，预计有约4.17%（即50% * 8.33%）的人会因母亲生日在六月而回答“是”。

由此，我们可以推断出对目标敏感问题的回答：

总“是”的回答比例为20%。
其中，约4.17%来自回答中性问题（母亲生日在六月）的“是”。
因此，剩下的约15.83%（20% - 4.17%）的“是”，才是真正对敏感问题（收到停车罚单）的肯定回答。

由于只有50%的受访者（硬币正面组）被问到了敏感问题，所以这15.83%的“是”只代表了样本中一半人的情况。要估算总体中真正有敏感行为（收到罚单）的比例，需要进行换算。公式如下：

估算的敏感行为比例 = (观察到的“是”的总比例 - 中性问题导致的预期“是”的比例) / 被分配到敏感问题的概率

代入我们的假设数据：
(0.20 - 0.0417) / 0.5 ≈ 0.3166

这意味着，如果我们直接询问所有人，我们可能会推断出大约有31.66%的人口在上个月收到过停车罚单。

成功实施的关键

这个方法一旦理清逻辑就相当简单。但成功实施的关键在于受访者信任这个过程。他们必须相信：

研究者确实无法知道他们的具体答案。
过程中没有诡计或让他们感到尴尬的环节。
这确实是他们匿名透露答案的一种安全方式。

确保匿名性也可以通过其他方式实现，我们将在下一节中讨论。

本节课中，我们一起学习了随机化应答技术。这是一种通过巧妙的问卷设计和概率计算，在保护受访者隐私的前提下，有效收集敏感问题数据的间接技术。其核心在于使用随机化设备配对已知分布的中性问题，并通过总体回答比例来反推敏感行为的真实发生率。

060：调查模式与隐私保护 🔒

在本节课中，我们将探讨调查敏感问题时的两个关键工具：调查模式与隐私保护。我们将了解不同调查模式如何影响受访者报告敏感行为的意愿，并学习如何通过确保隐私和保密性来获取更高质量的数据。

上一节我们讨论了询问敏感问题的挑战，本节中我们来看看如何通过选择调查模式和建立信任来应对这些挑战。

调查模式的影响

调查模式是减少社会期望偏差最有效的工具之一。当调查中存在访问员时，我们观察到强烈的模式相关偏差。因此，在数据收集中，人们常尝试结合不同模式。

以下是常见的模式组合策略：

结合访问员主导模式与自填模式：访问员主导模式（如面访）有助于招募受访者。随后，可以通过将笔记本电脑转向受访者，让其私下回答问题，切换到自填模式。
电话调查中的自填模式：在电话调查中，可以将实时访谈切换到自动语音应答系统。这种模式简称IVR。
转向网络调查：可以先通过电话招募受访者，然后引导其完成网络调查。

目前，关于不同自填模式之间的相对效果，我们知之甚少。同样，对于社会期望行为与非期望行为报告偏差的相对影响，知识也有限。我们确实知道，对于非期望行为会发生低报，对于期望行为会发生高报。但大多数研究只关注了其中一种。因此，在设计自己的研究时，最好考虑纳入实验，以观察这两类项目的相对影响。

接下来，我们将通过一项具体研究，展示处于需要隐瞒非期望行为的状态如何影响受访者对问题敏感度的感知。

案例研究：校友调查

这项研究于2005年与调查方法学联合项目合作完成。客户是马里兰大学的校友管理机构。调查对象是1989年至2002年所有毕业班的校友样本。

样本来自行政记录，这非常理想，因为我们可以核验受访者在特定项目上应报告的真实值。学术记录也可用。因此，我们既了解受访者与校友管理机构相关的行为，也了解其学业表现。

调查中的问题涉及行政记录中也存在的信息：

非期望行为：挂科、学业留校察看、退课。
期望行为：平均绩点、上一年度是否向校友会捐款及捐款金额、是否为校友会会员。

在调查模式上，本研究比较了：

网络调查
计算机辅助电话访谈
交互式语音应答

研究基础信息：本研究回复率较低，非应答跟进较少。共完成约300多份问卷，其中CATI和IVR模式320份，网络调查363份。网络调查的招募方式是：先通过电话联系，询问其网络地址，随后邀请其参与网络调查。

研究结果分析

第一张图表显示了所有项目的误报率，并按提问模式进行了区分。图表中的空心菱形代表电话、IVR和网络调查的总体误报率。可以看到，总体误报率在自填模式中下降。

这种效应在处理非期望行为时尤为明显，电话访谈与IVR应答之间的差异更大。对于社会期望行为，转向自填模式并没有产生如此大的影响，至少在本研究中如此。

这部分原因在于，根据所使用的数据收集模式不同，问题的敏感度感知也不同。在调查结束时，我们询问了受访者认为这些问题的敏感程度。图表显示了每种答案的报告模式。

在本研究中可以看到，对于这些特定问题，CATI访谈始终被认为是最敏感的，其次是网络和IVR。总体而言，积极项目被认为比消极项目的敏感度低。

这里我想强调的是，敏感度感知确实取决于受访者本应给出的答案。例如，比较行政记录显示从未退课的受访者与曾退课的受访者，会发现前者在其相应模式中认为该问题的敏感度低于后者。这种模式在网络调查中不明显，但在IVR和访问员主导的调查中确实存在。这种效应在其他非期望行为中也很明显，而对于积极行为则普遍较低。

确保隐私与保密性

对问题敏感度的感知，凸显了在调查中确保隐私和保密性的重要性。下面简要介绍这两个概念。

必须确保受访者知道其信息将被保密。在此过程中，需要在匿名性和保密性之间权衡。

保密性：意味着受访者的身份已知或至少可识别，但信息仅限于项目工作人员访问。
匿名性：意味着无人知晓受访者的身份，且在任何时间点都无法将身份与调查回答联系起来。

请看一个例子：“您的回答将被严格保密，并与一个ID号关联。”这是匿名还是保密？正确答案是保密。作为研究者，你仍有机会知道受访者是谁。ID号提供了受访者与问卷之间的链接，这在你想查看谁填写了问卷、定制非应答跟进或想使用抽样框信息进行非应答调整时非常有用。

了解所处的法律环境至关重要。这因国家、甚至地区而异，调查数据的法律地位不同，数据是否受法律索求约束也不同。特别是当调查主题非常敏感时，务必不要承诺你无法做到的事情。例如，在一些国家，法律要求报告在调查中提及的儿童虐待事件（这可能发生在犯罪与受害调查中）。

增强受访者对保密性和隐私信心的另一个要素，是制定并落实良好的数据安全计划。如今许多资助机构都要求此类计划。即使没有要求，你也应该了解并能告知受访者：谁将访问数据、数据将如何保护、数据的电子或纸质副本存储方式、数据何时销毁以及信息公开发布的计划。

总结

本节课中，我们一起学习了调查模式对敏感问题数据质量的影响。研究表明，自填模式能有效减少非期望行为的低报。同时，受访者对问题敏感度的感知受其自身行为和数据收集模式的影响。最后，我们明确了确保调查中隐私与保密性的重要性，包括理解匿名与保密的区别，以及制定健全的数据安全计划。这些措施对于建立受访者信任、获取真实可靠的数据至关重要。

061：态度问题：态度测量

概述

在本节课程中，我们将学习调查问卷中的态度问题。态度问题在许多调查中非常流行，特别是在消费者满意度调查或评估性调查中。我们将首先讨论态度的基本概念，然后在后续章节中探讨语境效应以及用于测量态度的量表。

什么是态度问题？

态度问题是关于那些无法通过外部观察或记录来验证的事物的提问。至少在理论上如此。区分态度问题与其他关于主观心理状态的问题非常重要。

态度具有评价性成分。请看下面的例子，我们询问人们对于特定陈述的同意或不同意程度。这里的陈述是：“我社区的人们通常相处融洽。”

这与询问知识相关的问题（认知成分）不同，例如“披萨在以下维度上有多健康？”；它也不同于具有强烈行为成分的行为意图问题，例如“在未来六个月内，您购买一辆汽车的可能性有多大？”

后两者，即认知成分和行为成分（信念和行为意图），相对更容易提问。而态度问题则存在更多需要我们讨论的议题。

态度的传统观点

关于态度的传统观点认为，态度是对某个人、物体或议题的一种持久的积极或消极感受。经典的参考文献是佩蒂和卡乔波在80年代的工作。

在其他地方，态度被描述为一种心理倾向，表现为以某种程度的喜好或厌恶来评价特定实体。通常，这包含一个方向（积极 vs. 消极）或一种隐含的、可被单维度测量的感受。

这些传统观点隐含的假设是：态度是预先存在的。你可以从头脑中“取出”一个态度，这被称为态度的自动激活。这要求态度具有一定程度的稳定性，它们独立于语境和时间，能够预测行为，并且能够抵抗说服。

这也是态度问题在问卷中流行的原因：你可以询问这些态度，并希望从中做出行为预测。

传统观点面临的问题

然而，这种传统观点存在一个问题，至少在调查中询问态度时如此。方法论学者发现，根据态度问题的提问方式，得到的数字存在巨大差异。

这里有两个例子：

当被问及“美国是否应该允许支持共产主义的公开演讲”时，56%的人回答“不应该”。
当被问及“美国是否应该禁止支持共产主义的公开演讲”时，只有39%的人回答“应该”。概念基本相同，但数字差异巨大。

同样：

25%的人认为“联邦政府在福利上花费太少”。
65%的人认为“联邦政府在援助穷人上花费太少”。两者之间再次出现巨大差异，而概念上几乎是同一件事。

如果态度是稳定的，并且不受问题措辞、语境等因素影响，那么这种情况就不应该发生。

态度的替代性观点

因此，出现了替代性的观点。约翰·泽勒在1992年有一篇很好的文章，标题是“边做边编”，这抓住了其中的精髓。他在文中写道，个体通常并不拥有“真实的”态度，相反，他们会根据当下任何显著的因素，临时构建自己的观点陈述。

诺伯特·施瓦茨在态度和态度测量方面著述颇丰。在2007年的一篇文章中，他将态度概念化为当场形成的评价性判断，而非一种类似特质的倾向。这一点很重要，因为它影响了你是否想要测量这些态度，以及如何测量。

让我们总结一下这些替代性观点：

人们并没有稳定的、存储在记忆中的总体评价。
如果你要求一个态度，人们会当场构建它。他们会根据脑海中恰好想到的任何事情，给你一个“脱口而出”的回答。
这也意味着，明天你可能会得到一个不同的答案。
问题措辞或顺序的微小变化，都可能导致非常不同的回答。
人们甚至会报告对根本不存在的事物的态度。这是一个有趣的现象。总的来说，在问卷调查中，我们大约在两三岁后就失去了“不回答问题”的能力。因此，无论问题是什么，通常你都会得到一个答案。

特雷纳和拉辛斯基，特别是拉辛斯基，在他们的多篇文章中对此进行了大量论述。拉辛斯基区分了“态度”（被视为对客体的不可观察的总体评价）和“态度表达”（在特定时间、以特定方式对特定问题做出的具体回答）。

因此，任何单一的态度测量都只是潜在态度的不完美反映。这可以被视为对不同观点的一种调和。也就是说，一个人内在可能存在某种你可以测量的东西，但如何表达它则是另一回事。

在拉辛斯基2011年的文章中，他试图解决这些分歧的观点。他说，一些态度表达几乎完全是当场构建的（正如泽勒所言），而另一些态度表达则几乎是从记忆中完整检索出来的。大多数态度表达是两者的结合，这意味着它们的构建成分中包含了一个从记忆中检索出来的、相当稳定的总体评价，那就是实际的态度。但我们讨论的所有问卷设计要素，都会影响最终回答的形成。

施瓦茨在2007年的论文（也是课程笔记的一部分）以略有不同的方式解决了这些分歧。他将稳定的态度、强烈的态度、语境效应和非态度，转化为更符合现代态度观点的概念。

花点时间回想一下阅读内容，或者想象一下，在将态度概念化为受访者根据可及信息当场构建评价性判断的背景下，你会如何翻译这些概念：

稳定的态度：意味着受访者根据相似的信息输入或相同的长期可及信息，得出了相似的评价。
强烈的态度：意味着受访者利用了高度可及的信息。如果回答得很快，那可能就是高度可及的信息。
语境效应：意味着受访者在构建评价时利用了语境信息。
非态度：意味着受访者在同一时间可及的信息中存在相同数量的冲突信息。

对问卷设计的启示

所有这些都对问卷设计有重要启示。

你必须注意由以下因素引起的语境效应：

问题措辞
前后问题（在自填式问卷中，这意味着整个问卷的呈现，因为你无法严格控制先后顺序）
访员特征、行为和调查介绍（在访员面访中，这些也是你需要担心的语境效应）

外部因素，如天气或情绪，也已被证明会影响受访者的回答。

其他需要注意的问题还包括：

具体评价与总体评价
同意/不同意量表
“不知道”选项的过滤
假设性问题

我们将在接下来的章节中讨论这些问题。

总结

本节课中，我们一起学习了态度问题的核心概念。我们首先了解了态度的传统观点，即认为态度是稳定且预先存在的。然后，我们探讨了方法论研究揭示的问题，即态度回答极易受到问题措辞和语境的影响，从而引出了态度是“当场构建”的替代性观点。最后，我们讨论了这些不同观点对问卷设计的重要启示，特别是关注语境效应的必要性。理解态度的这些特性，是设计出能够有效测量真实倾向的调查问题的关键。

062：态度问题中的语境效应 📊

在本节课中，我们将学习语境如何影响受访者对态度问题的回答。语境效应可能出现在回答过程的任何阶段，从而最终改变回答结果。理解这些效应对于设计有效的调查问卷至关重要。

什么是语境效应？

语境通常会在受访者理解问题、形成判断和评价时，影响其考虑因素，从而影响回答。请回想我们之前讨论的回答过程模型，语境效应可以出现在这些阶段的任何一处，并最终改变回答。

重要的是，我们需要以非常广泛的视角来思考语境效应。调查的许多方面都可以构成语境，例如问卷的主题、访问员、访问环境、问卷或访问员给出的指示、问题附带的图片、问题的措辞、回答选项，甚至是问题本身的顺序。我们将在本节中看到一些例子，后续在讨论问卷布局和调查模式时，我们还会回到这些语境效应。

语境如何影响理解？

语境效应首先可以出现在理解阶段。以下是两种主要的影响方式。

同化效应

同化效应指受访者将先前问题纳入对当前项目的解释和理解中。

以下是一个来自Trenja和Razinski（1988）论文的例子：

你是否赞成通过《蒙特雷控制法案》？

当此问题跟在关于通货膨胀的问题之后时，27.5%的受访者表示“赞成”。

当此问题跟在一个中性问题之后时，12.5%的受访者表示“赞成”。

由于《蒙特雷控制法案》与反通货膨胀相关，这个语境改变了对此特定问题持赞成态度的回答比例。

对比效应

对比效应指受访者在解释和理解当前项目时，排除了先前问题的影响。

我们稍后会展示一个例子，当问题涉及非常具体与非常一般的内容，且与幸福感和婚姻相关时，就会出现这种语境效应。当我们讲到那个例子时，请记住这种对比效应。

这两种效应对问卷设计者都有启示。正如我们最初所说，应避免使用模糊和含糊的术语，并且要尽可能具体地描述你想要谈论的态度对象。

语境如何影响信息提取与判断？

上一节我们介绍了语境在理解阶段的影响，本节中我们来看看语境在信息提取和判断阶段的作用。

在提取阶段

语境会提示某些考虑因素的易得性或提取。这既可以表现为同化（纳入考虑），也可以表现为对比（排除某些考虑的提取）。

在判断阶段

这与“纳入-排除”模型有关。Schwartz和Bless在1992年的论文中讨论了这一点。它在一定程度上取决于目标与标准的构建。信息的提取和应用与记忆中的易得性有关：有些信息是长期易得的，有些则是暂时易得的，依赖于语境。

让我用一个具体陈述来解释：

目标的表征：信息被语境激活，并被纳入目标的表征中，这会产生同化效应。
信息的排除：信息主要被语境激活，但被排除在目标的表征之外，这会产生减法式对比效应。
标准的纳入：如果被语境激活的信息被纳入标准的表征中，则会出现比较式对比效应。

因此，存在同化效应、减法式对比效应和比较式对比效应。

让我举一个例子。假设语境是关于理查德·尼克松的可信度（通过前面的问题或给出的信息提及），由于当时的丑闻，他的评分通常很低。

如果目标问题是“政治家的可信度”，那么由于同化效应（尼克松被纳入了政治家的表征中），政治家的评分会偏低。
如果目标问题是“另一位受好评的特定政治家的可信度”（例如纽特·金里奇），那么由于对比效应（尼克松被纳入了标准的表征中，从而降低了基准），该政治家的评分会偏高。

以下是这种效应的一个实例。一项关于政治家总体和特定政治家的问题研究，Y轴是B insurance（2010）论文中使用的可信度量表。如果丑闻被提及（黑色条形），对特定政治家的评分远高于丑闻未被提及时。但这种差异在询问“政治家总体”和询问“特定政治家”之间尤为明显。

语境如何影响报告与映射？

语境效应同样可以进入报告和映射阶段。

同化效应意味着对分组在一起的问题会得到一致的回答。
对比效应则会导致相反的结果。

例如，如果尼克松被映射为“最不可信”的锚点，那么这种锚定效应会改变你对后续问题的评分或选择的量表点。

总结与对问卷设计的启示

本节课中我们一起学习了态度问题中的各种语境效应。现在让我们来总结一下。

语境效应可以：

进入理解阶段：因为前面问题的内容可能影响受访者对后面问题的解释。
进入提取阶段：影响信息的易得性。
进入判断阶段：用于回答前面问题的信息在记忆中变得更易得，并被用于构建目标或标准的表征。
引起报告问题：例如对分组问题的一致性报告，以及评定量表的锚定。

这对问卷设计者产生影响：

首先，它对我们数据的解释和发现（无论是实质性的还是方法论的）的普适性构成威胁。
例如，在趋势分析中（如在综合社会调查或其他综合类调查中反复询问相同问题），可能难以长期保持相同的语境。即使能保持，问题的含义也可能随时间改变。
此外，可能与人口亚组的 demographic 特征产生交互作用。
请注意，虽然我们在例子中主要讨论了前面问题的语境，但请记住，访问环境或历史背景也可能产生这些效应。

因此，在设计问卷时，理解并逐一审视回答形成的各个阶段（理解、提取、判断和回答形成）非常重要。要思考：在这个设置、这次访问、这个语境中，是否有东西可能影响某个特定阶段？

应对策略

以下是一些应对语境效应的策略：

借用问题：在可能的情况下，借用其他调查中使用过的问题，前提是这些问题在其他地方有效，且时间没有过去太久，语境也类似。
预测试：需要进行大量预测试来发现语境效应。
实地数据检查：在实地调查期间进行数据检查，可能包括行为编码。
事后定量分析：如果可能，进行大量分析以定量检查语境效应。
实验设计：理想情况下，最好能设计一些实验，例如A/B测试或分票实验。
引入中介变量：可以引入一些可能调节语境效应影响的变量，例如与认知能力或认知负荷相关的变量、与动机相关的变量。
保持警觉：在设计问卷和整个调查工具时，要对任何类型的语境干扰、中断保持认知。

在下一节中，我将回到我们之前谈到态度效应时提及的“具体评价与一般评价”的例子。

063：态度问题：具体与总体评价 📊

在本节课中，我们将探讨态度调查中的一个关键设计问题：具体评价与总体评价问题的顺序如何影响受访者的回答。我们将通过一个经典实验来理解其中的机制，并学习如何设计问卷以避免偏差。

概述

在问卷设计中，问题的顺序和措辞至关重要。本节将聚焦于一个由霍华德·舒曼和斯坦利·普雷斯在1981年进行的著名实验。该实验揭示了当先询问具体领域（如婚姻）的态度，再询问总体生活满意度时，会产生一种“减法语境效应”，从而显著影响总体评价的结果。

上一节我们介绍了问卷设计的基本原则，本节中我们来看看一个关于问题顺序的具体案例。

实验内容

实验包含以下两个问题，研究人员改变了它们的提问顺序：

总体幸福问题：综合来看，你会如何描述你近来的生活？你会说自己非常幸福、比较幸福，还是不太幸福？
- Taking all together, how would you say things are these days? Would you say that you're very happy, pretty happy or not too happy?
婚姻幸福问题：综合来看，你会如何描述你的婚姻？你会说你的婚姻非常幸福、比较幸福，还是不太幸福？
- Taking all things together, how would you describe your marriage? Would you say that your marriage is very happy, pretty happy or not too happy?

（注：如果你未婚，可以在心中用“恋爱关系”替代“婚姻”来思考这两个问题。）

实验结果

以下是霍克曼和斯坦利·普雷斯实验的结果：

当总体幸福问题先出现时，有 52% 的受访者报告自己“总体上非常幸福”。

然而，当婚姻幸福问题先出现（即如上页幻灯片所示顺序）时，只有 38.1% 的受访者报告自己“总体上非常幸福”。

这个结果非常有趣，因为这种语境效应只出现在总体问题上。具体问题（婚姻幸福）的结果并未受到提问顺序的影响。

效应机制分析

你可能会想，这是否与我们之前讨论过的“减法语境效应”有关？答案确实是肯定的。

研究人员指出，在这项实验的两种问题顺序变体中，受访者对问题的解读很可能发生了变化：

当总体问题先出现时，问题非常宽泛，受访者可以联想到生活中的任何方面。
当具体问题（婚姻）先出现时，受访者在回答随后的总体问题时，会隐含地理解为：“除了你的婚姻之外，你近来的生活如何？”。

在这种情况下，受访者应用了格赖斯的数量准则，即“避免冗余”。因此，他们会有意地从总体评价中减去已经专门评价过的婚姻部分的思考和感受。

核心设计原则

基于以上分析，我们得出一个重要的问卷设计结论：

只询问具体问题。或者，如果你必须询问总体性问题，务必将其放在所有具体问题之前进行询问。

这样可以防止具体问题的出现为后续的总体问题设定一个隐含的“减法”框架，从而获得更真实、不受干扰的总体态度测量。

总结

本节课中我们一起学习了具体评价与总体评价问题在问卷中的顺序效应。通过舒曼和普雷斯尔的实验，我们看到了“减法语境效应”如何导致总体幸福感的报告率发生显著变化。关键在于，问题顺序会改变受访者对总体问题的心理解读。因此，为了获得有效的测量结果，问卷设计应遵循“先总体，后具体”或“只问具体”的原则。

064：态度问题：同意-反对量表 📊

在本节课中，我们将要学习一种特定的态度问题类型——同意-反对量表。这种量表非常流行，但也存在一些需要注意的问题。

概述

同意-反对量表是一种常见的问卷格式，用于测量受访者对特定陈述的态度。然而，尽管它易于使用，研究者也需要了解其潜在的缺陷。

同意-反对量表示例

以下是一个典型的同意-反对量表问题示例：

您在多大程度上同意或不同意以下陈述？

堕胎应该合法化。

我对堕胎的看法非常确定。

每个陈述都对应一个五点量表，其端点标记为“非常同意”和“非常不同意”，中间点则完全标记为“同意”、“既不同意也不反对”、“不同意”。

这是一种非常常见的问题类型。

优点与缺点

这种格式的优势在于易于实施。受访者熟悉这种格式，他们以前见过。根据Krosnick在2012年的论文，受访者回答此类问题的速度比其他格式快约三分之二，我们得到的“不知道”答案也更少，并且受访者实际上喜欢这种量表。

然而，这里也有一些我们应该提到的缺点，早期的文献已经指出过，并在引用的Krosnick论文中进行了总结。

以下是主要缺点：

默许偏差：受访者倾向于以礼貌和顺从的方式回答。在其他情境中，默许偏差意味着受访者更可能对问题回答“是”。受访者处于顺从的一方，但也可能遵从更高地位者并采取默许策略，所有这些都导致更多的顺从或“是的，当然”的回答。
双重含义：它们通常以双重含义的方式呈现。这是一个例子：“美国已经偏离真正的美国生活方式太远，可能需要用武力来恢复它。”这是一个你可以在调查中找到的陈述，询问你是否同意或不同意这个陈述很容易，但在这里你必须对两件不同的事情表示同意或不同意。一是美国正在偏离真正的美国，二是人们可能对同意或不同意有不同的看法。
歧义性：“不同意”选项可能含义模糊。以这个项目为例：“我很少感到沮丧。”那么“不同意”对这个项目到底意味着什么？你从未感到沮丧，还是你一直感到沮丧？这可能是两个不同的立场，不清楚是什么。不同意这些项目中的任何一个意味着什么？

替代方案

因此，Krosnick认为，文献中你可以考虑用其他方式来问同样的问题。

在此表的左侧，您可以看到针对特定问题的同意-反对格式，这可能应该避免。在右侧，您看到推荐使用的、针对具体结构设计的回答选项。

对于“堕胎应该合法化”这个项目，您在右侧再次看到五点量表。同样的问题被重新表述为：“有些人认为堕胎应该合法化，但其他人认为堕胎不应该合法化。哪一种最接近您的观点？”这将是避免我们刚才讨论的一些问题的一种提问方式。

“我对堕胎的看法非常确定”在这里与重新表述配对：“您对堕胎看法的确定程度如何？”选项为“非常确定”、“有些确定”、“不太确定”、“一点也不确定”。这也将是针对同一问题的替代表述。

如果您阅读John Krosnick的论文，特别是我们在此引用的那篇，他的结论是：在任何情况下，永远、永远、永远不要使用同意-反对或非常同意到非常反对的量表来提问。

练习与思考

让我们尝试下面列出的更多例子。

工作人员团队合作协调了我的护理。（这可能是一个针对医院患者的问题。）
电子比原子小。
工业科学家的研究结果不如大学科学家的可靠。

您认为哪些问题可以使用同意-反对量表？您更倾向于对哪些问题使用替代表述？

我们在此提供了一份表格，供您为那些您更倾向于使用替代方案的问题输入您的替代表述。

总结

本节课中，我们一起学习了同意-反对量表这种态度问题的测量方法。我们了解了它的基本格式、主要优点，并重点探讨了其存在的三个主要问题：默许偏差、双重含义和歧义性。最后，我们学习了如何通过使用针对具体结构设计的回答选项来重新表述问题，以规避这些缺陷。记住，在设计问卷时，清晰、无歧义地测量态度至关重要。

在下一节中，我们将讨论“不知道”选项的处理。

065：态度问题中的“不知道”选项设计 📊

在本节课中，我们将探讨问卷设计中一个常见且棘手的问题：是否应该为受访者提供“不知道”这个答案选项。我们将通过经典研究案例，分析提供与不提供该选项的利弊，并介绍相关的认知模型与实验证据，最终给出当前学界的设计建议。

是否应该提供“不知道”选项？🤔

这是一个始终具有挑战性的问题：在问卷中，是否应该为受访者提供“不知道”这个答案类别？还是不应该提供？

我们的特鲁明、斯坦和普雷瑟在1981年的著作《态度调查中的答案》中，给出了一个很好的例子。该研究询问受访者是否支持或反对《1978年农业法案》。有趣的是，这个法案实际上并不存在。因此，正如你在下图中看到的，大多数人本应回答“不知道”，因为他们无法对不存在的事物表示支持或反对。

然而，在第一组条形图（此处）中，问题直接以“你是支持还是反对”的形式提出，没有预先筛选掉那些表示从未听说过或不知道《1978年农业法案》的人。在这种条件下，大约有70%的人主动回答了“不知道”。而在另一组（此处）中，首先询问人们是否了解该法案，结果近90%的人表示不了解。只有剩下的那部分人才被问及是否支持或反对该法案。

提供“不知道”选项的不同方法 🔧

有多种方法可以提供“不知道”选项。以下是主要的几种设计策略：

完全筛选法：在询问态度问题之前，先问一个前置问题，例如“你对此有看法吗？”或“你了解这个吗？”。只有回答“是”的受访者才会进入后续的态度问题。
准筛选法：在态度问题的答案选项中直接包含“没有看法”或“不知道”的选项。例如：“你同意、不同意，还是没有看法？”这种形式常用于电话调查，因为在面对面或电话访问中，访问员需要记录下“无意见”这个答案，即使它并非问题文本的一部分。

那么，核心问题在于：是否应该提供这个选项？关键在于，是应该主动为受访者提供“不知道”的选项，还是让他们自己主动说出“不，我对此一无所知”或“没有看法”？

康弗斯和普雷瑟的观点是，应该筛选掉那些了解不多或无法形成态度的受访者。这是他们在80年代进行相关研究后得出的结论。你可以通过不同强度的筛选来执行这一建议：我们讨论过的准筛选法，或者完全筛选法。你甚至可以使用“合理化”的完全筛选，例如：“你是否对此有足够的兴趣来支持某一方？”或“你是否思考过或听说过这个议题？”，以软化筛选条件，以防你担心筛选过于严格。

认知模型视角下的“不知道”回应 🧠

抛开上述方法，约翰·克罗斯尼克（后来与斯坦利·普雷瑟合作）等人近期的研究使关于使用“不知道”选项的看法发生了一些变化。这些观点主要基于两种关于“不知道”回应的认知模型。

第一种是优化者模型。该模型基于回答过程理论，认为受访者可能在四种情境下想说“不知道”：

理解问题阶段：他们解读问题后，意识到自己不理解问题的含义。
记忆检索阶段：他们在记忆中搜索相关信息，但发现头脑中完全没有关于该主题的信息。
信息整合与判断阶段：他们整合信息形成判断时，可能因信息之间存在矛盾、冲突或信息不足而无法形成明确意见。
答案表述阶段：他们将判断转化为具体答案类别时，可能因为答案选项的含义不明确而无法匹配自己的思考。

其中，只有第二种情况（记忆检索无果）才意味着，如果强迫人们回答（即不提供“不知道”选项），他们给出的将是无意义的答案。因此，除了记忆检索失败这个原因，在其他情况下，推动人们提供意见可能会得到有意义的回答。

如果我们以另一种认知模型——满足者模型——作为评估“不知道”回应的基线，结论会有所不同。“满足者”一词源于赫伯特·西蒙在50年代的描述，后被克罗斯尼克、迪尔曼等人引入问卷设计领域来描述受访者行为。满足者型的受访者只愿付出刚好能完成问卷的最低努力。

在这种情况下，一些受访者有时会在问题中寻找线索，以便跳过所有理解、检索和思考的步骤来为自己的答案找理由。他们可能仅仅因为不想经历上述四个步骤（“我理解吗？”、“我能组织答案吗？”、“我脑子里有相关信息吗？”等等）而直接选择“不知道”这个简单的答案类别。当受访者回答问题的能力较低、作答动机不足，或认知负担过重时，最有可能出现这种行为。

因此，在这种情境下，如果推动他们提供意见，这些人反而可能提供有意义的观点。这又成为了不提供“不知道”选项的一个论据。

实验证据与当前建议 📈

有一些实验证据比较了提供与省略“不知道”选项的效果。

例如，克罗斯尼克、迪尔曼等人在90年代，以及克罗斯尼克、贝伦、保罗等人进行的一系列实验发现，未经过滤的问题（即不提供“不知道”选项）与经过过滤的问题相比，答案的可靠性并没有降低。

另一组实验表明，筛选（即提供“不知道”选项）并不会增强不同议题态度之间的约束性关联。

麦克伦南在1991年的一项早期研究中也发现，筛选并没有减少默许偏差或回答顺序效应。

克罗斯尼克的一系列研究也支持了这样一个观点：总体而言，可能应该省略而非提供“不知道”选项。

因此，总结在相关论文中的“克罗斯尼克建议”是：“不知道”回应大多并非由于完全缺乏信息，而主要是由于矛盾心理、问题表述不清、受访者感到压力、自我保护或满足者心态。

最佳问卷设计策略似乎是：省略“不知道”筛选选项，并告诉受访者（或由访问员说明）：“我注意到这一点，但如果你必须选择一个，你会怎么说？” 这可以成为访问员在推动受访者给出实质性回答时的一种方式。最终，你将能从样本中更大比例的受访者那里收集到有意义的数据。

总结 ✨

本节课中，我们一起学习了态度问题中“不知道”选项的设计考量。我们回顾了提供该选项的经典方法，并从优化者与满足者两种认知模型深入分析了受访者选择“不知道”背后的心理过程。基于近期的实验证据，当前的主流建议倾向于在大多数情况下省略明确的“不知道”选项，并通过适当的追问鼓励受访者给出实质性意见，从而提高数据的有效性和信息量。

在下一节中，我们将讨论答案类别中的默许偏差与回答顺序效应等问题。

066：态度问题：顺序效应

📚 概述

在本节中，我们将探讨问卷设计中的一个重要现象：回答顺序效应。我们将了解什么是顺序效应，它如何影响调查结果，以及作为问卷设计者可以采取哪些措施来减轻其影响。

🔍 什么是顺序效应？

上一节我们介绍了态度问题的基本概念，本节中我们来看看回答选项的排列顺序如何影响受访者的选择。这种现象被称为回答顺序效应。

当受访者面对一个包含多个选项的列表时，选项在列表中出现的位置（靠前或靠后）可能会影响他们选择该选项的可能性。这并非只出现在态度问题中，也可能出现在事实性问题中，尽管在后者中可能不那么常见，因为人们对事实性问题的答案通常有更明确的认知。

📝 一个具体例子

以下是一个关于儿童品质的问题示例：

“以下哪些品质是儿童最应该具备的？”（此问题适用于男孩和女孩）

有礼貌

努力尝试

诚实

整洁

有良好的判断力

有自控力
（……以及其他一系列品质）

研究表明，当受访者在自填式问卷中面对这样一个长列表时，他们倾向于更频繁地选择列表上半部分的选项。

📊 顺序效应的类型与发现

为了验证这一效应，研究者进行了实验。他们将受访者随机分为两组：

版本A：获得如上所示的原始顺序列表。
版本B：获得顺序完全相反的列表。

在一项1987年的研究中，Krosnick、Alwin等人发现，无论列表是正序还是倒序，位于列表顶部的选项被选中的概率都更高。他们由此得出结论：这种效应并非源于选项内容本身，而是源于其位置。

更深入的发现是，这种首因效应（即优先选择靠前选项）主要出现在“低认知水平”的受访者群体中（例如，教育水平较低或在词汇测试中得分较低的人）。研究者认为，这部分群体更可能采用“满意化”策略进行回答，即一旦遇到一个可以接受的选项，就会停止搜索并选择它。

👁️🗨️ 呈现模式的影响

顺序效应的方向（是优先选前还是优先选后）很大程度上取决于选项的呈现模式：

视觉呈现（如纸质问卷、网页）：受访者的注意力可能在前几个选项后就变得分散，因此更可能选择靠前的选项，产生首因效应。
听觉呈现（如电话调查）：先听到的选项容易被后听到的选项覆盖，因此受访者更可能记住并选择靠后的选项，产生近因效应。

这里的关键区别在于信息是“看到”还是“听到”，而非广义的调查模式（如网络、电话）。

📈 元分析的关键发现

Holbrook等人于2007年进行了一项关于顺序效应的元分析，审查了超过500个实验。他们发现：

在电话调查中，19.2% 的实验显示出显著的近因效应。
仅有 1.8% 的实验显示出显著的首因效应。
平均效应大小为 2.2%（计算方式为：选择第二个选项的百分比减去选择第一个选项的百分比）。

以下是影响效应大小的主要因素：

问题难度：平均词长、每句词数、句子数量。
回答选项的长度。
问题在问卷中的位置。
问题类型：研究者将问题分为三类，发现：
1. 看似开放式问题（如“你觉得克林顿总统是可信的还是危险的？”）：最不易受近因效应影响。
2. 延迟处理型问题（如“以下哪项描述了你对克林顿总统的看法？[选项]”）：最容易受近因效应影响。
3. 看似是否问题（如“你认为克林顿总统是可信的还是危险的？”）：效应介于两者之间。
教育水平：与高教育水平群体相比，低教育水平群体受顺序效应的影响更大。

🧠 受访者的回答行为

通过眼动追踪研究，我们可以观察到受访者处理选项列表的不同方式：

以下是几种典型的回答模式：

最优决策者：仔细阅读问题和所有选项，反复比较，最后做出选择。
重新考虑者：快速选择一个看似合适的选项（常是前几个），但继续阅读列表，可能会更改最初的选择。
满意化者：只阅读部分选项（通常是前半部分），遇到第一个可接受的选项后便停止阅读并做出选择。

🛡️ 如何减轻顺序效应？

作为问卷设计者，你可以采取以下策略来减轻顺序效应的影响：

最理想的方法是随机化选项顺序。 公式可以表示为：
呈现给受访者i的选项顺序 = Randomize(选项列表)

然而，并非所有情况都适合完全随机化（例如，选项本身有逻辑或时间顺序）。此时，可以考虑以下方法：

部分随机化：如果无法完全随机化，至少可以创建两个版本（正序和倒序），并随机分配给受访者。
利用固有结构：如果列表存在固有逻辑（如按字母顺序、时间顺序），这种预期中的顺序本身可能在一定程度上抵消随机顺序效应。
保持警惕：在设计问卷时，始终意识到顺序效应可能存在的风险，特别是在设计长列表、难度较高的问题或针对特定人群时。

📖 总结

本节课中，我们一起学习了回答顺序效应这一关键概念。我们了解到：

选项的排列顺序会系统性地影响受访者的选择，产生首因效应或近因效应。
效应的方向和大小受多种因素影响，包括呈现模式（视觉/听觉）、问题类型、问题难度以及受访者特征（如教育水平）。
通过观察受访者的回答行为，我们看到了“最优决策”、“重新考虑”和“满意化”等不同策略。
作为设计者，随机化选项顺序是减轻该效应最有效的方法，同时需考虑问题的具体情境和约束。

理解并妥善处理顺序效应，对于收集高质量、无偏见的调查数据至关重要。

067：应答选项与量表设计 📝

在本节课中，我们将要学习问卷设计中一个至关重要的环节：应答选项与量表的设计。问卷中的每一个问题，其应答选项的设定都直接影响着数据的质量和受访者的回答方式。我们将探讨开放式与封闭式问题的区别，介绍不同类型的量表，并基于研究证据提供设计建议。

开放式问题

上一节我们提到了问题类型，本节中我们来看看开放式问题。开放式问题允许受访者用自己的语言自由回答，不提供预设选项。

以下是开放式问题的两种主要形式：

文字型开放式问题：例如，“您最喜欢居住在A地的哪一点？”
数字型开放式问题：例如，“在过去12个月里，您有多少天……？”

开放式问题有其优缺点。其优点在于能获得更丰富、深入和独特的答案，更接近自然对话。然而，其缺点也很明显：分析逐字稿耗时费力、编码过程容易出错、整体实施成本更高。

研究显示，尽管开放式问题的使用比例已大幅下降，但在某些情境下，其表现可能优于封闭式问题。

封闭式问题

在了解了开放式问题后，我们转向更常见的封闭式问题。封闭式问题为受访者提供一组固定的选项以供选择。

以下是几种常见的封闭式问题示例：

是否型问题：例如，“您是否曾经使用过……？” 选项为“是/否”。
频率型问题（四点量表）：例如，“在过去30天里，您使用维生素的频率是？” 选项为“经常/时常/很少/从不”。
态度型问题（五点量表）：例如，“在过去30天里，您感到紧张的程度是？” 选项为“总是/大多数时候/有时/偶尔/从不”。
评价型问题（五点量表）：例如，“您认为健康状况如何？” 选项为“优秀/很好/好/一般/差”。
“全选”型问题：例如，“过去七天您读过以下哪些杂志？” 受访者可从列表中勾选所有符合的项。

设计者常需决定是否将开放式问题转为封闭式。例如，将“您在工作中最看重什么？”改为提供“高收入”、“不被解雇”、“工作时间短”等选项的封闭式问题。这能提高回答率，但可能限制受访者的思考范围。

频率量表与等级量表

封闭式问题中，量表设计是关键。频率量表用于测量行为发生的频次。

一个经典实验（Schwarz等人，1980年代）询问“您平均每天看几小时电视？”，并提供了两组不同的选项范围。结果发现，受访者的答案分布显著受到所提供选项范围的影响，这提示选项的设定会暗示“合理”的回答区间。

另一种常见类型是等级量表，用于测量态度或评价。

设计等级量表时，需要考虑以下决策点：

量表点数：用几个等级？
中间选项：是否包含“中立”或“无所谓”的中间点？
标签类型：是否对每个点进行文字标注？是否使用数字标签？
量表极性：使用单极量表（如“极其快乐”到“一点也不快乐”）还是双极量表（如“极其快乐”到“极其不快乐”）？

研究文献（如Krosnick & Presser, 2010; Krosnick, 2012）提供了一些指导原则：

量表点数：在视觉模式下（如自填问卷），双极量表建议使用7点，单极量表建议使用5点。更长的量表通常信度更高，但也更耗时。
中间选项：早期研究担心中间选项会导致“趋中”反应，但近期的研究推荐在双极量表中包含中间选项。
标签：通常，对所有点进行完全文字标注的效果优于仅标注端点。标签应尽量等距分布，以符合受访者的预设。
数字标签的影响：一项实验（Schwarz等，1991）发现，使用“-5到+5”量表的受访者比使用“0到10”量表的受访者更倾向于报告更高的成功度，因为“-5”可能被解读为“彻底失败”，而“0”仅代表“没有成功”。

排序与评分

除了简单的选择，有时我们需要了解多个项目的相对重要性。这时有两种方法：排序和评分。

排序要求受访者对一组项目进行顺序排列。

完全排序：对所有项目进行完整排序（如将18个价值观按重要性从1排到18）。
部分排序：只选出最重要的几项或最不重要的几项。
最值排序：仅选出最重要的一项。

评分则是使用我们刚才讨论的等级量表，对每个项目进行独立评分（如“极其满意”到“极其不满意”）。

根据Krosnick（2012）的综述，以下是两者的比较：

任务难度：排序任务通常比评分更难，因为它需要在多个对象间进行比较。
呈现方式：排序通常需要视觉辅助（如展示卡），而评分不需要。
耗时与成本：排序更慢，成本也更高。
信息量：评分能同时提供绝对水平和相对顺序，而排序只提供相对顺序。
数据水平：好的评分量表可产生等距数据，而排序数据通常是顺序数据。
分析与区分：排序数据分析更复杂，且强制区分所有项目；评分则不强制区分。

“全选”型问题

最后，我们来看“全选”型问题（Mark all that apply）。研究（如Smyth等，2006）比较了“全选”格式与一系列独立的“是/否”问题格式，发现两者并不可比。

“是/否”系列问题通常能获得更多被勾选的答案。
回答“是/否”系列问题耗时更长。
但该研究未在“是/否”问题中发现明显的默许偏差或更高的无回答率。

总结与设计建议

本节课中，我们一起学习了问卷应答选项与量表设计的核心要点。以下是关键的设计建议总结：

开放式问题：谨慎使用。对于敏感行为，数字型开放式问题可能是好选择。
避免引导：设计量表时，避免选项范围无意中引导回答方向（如电视时长的例子）。
封闭式问题：推荐使用5到7点的量表。
量表标签：推荐使用完全文字标注，并确保标签贴合主题且间距合理。
问题分支：对于长量表（如0-10），可考虑使用分支问题（先问“高于还是低于5”，再细问）以简化电话访问。
选项顺序：对于没有自然逻辑顺序的列表式选项（如杂志列表），应考虑随机排列选项顺序，以避免上下文效应。
排序 vs. 评分：根据研究目标权衡选择。评分通常更高效、提供信息更丰富，且易于分析。

通过精心设计应答选项和量表，我们可以更有效地收集到高质量、易于分析的数据，从而为研究结论打下坚实基础。

068：预测试技术：专家评审与焦点小组

在本节课中，我们将学习两种关键的问卷预测试技术：专家评审与焦点小组。预测试旨在确保问卷格式达到最佳状态，并识别和减少测量过程中可能出现的各类误差。

为何进行预测试

我们进行预测试，是为了识别并减少所有可能存在的误差。构建一个完美的测量工具是困难的，但本节介绍的技巧能帮助你更好地识别规范误差，检验你的概念分解是否有效，是否涵盖了所有核心概念。它还能帮助你识别操作化误差（例如，问题是否真的测量了目标构念？）以及一般的测量误差（例如，敏感性问题、问题措辞或访员特征是否导致特定回答模式）。理想情况下，你应该使用多种预测试技术，综合运用能获得最佳效果。

专家评审

上一节我们介绍了预测试的目的，本节首先来看第一种定性技术：专家评审。

首先需要明确谁是“专家”。这包括问卷设计专家、相关领域的主题专家（确保问卷匹配核心概念），以及问卷实施专家（如经验丰富的访员）。此外，还有一些基于计算机的专家系统（如Qua）可供使用。

以下是专家评审的实施要点：

专家职责：识别潜在的回答问题，并提出改进建议。
操作方式：可以单独或分组进行。反馈形式可以是开放式评论，也可以是针对特定问题的编码系统。
最终产出：一份包含改进建议的问题报告，以及一份显示问题分布情况的总结报告。务必请多位专家评审，而非依赖一人意见。

专家评审的优势在于能有效识别与数据分析和量化分析相关的问题，并且成本相对较低、速度较快。其不足之处在于评审质量在实践中差异很大，且专家之间常存在显著的不一致和分歧。

焦点小组

在了解了专家评审之后，我们来看看另一种定性预测试技术：焦点小组。

焦点小组是由5到10人组成的小组，旨在探究某个研究主题。通过组织讨论和评估具体的调查问题，研究者可以了解当人们听到某个主题或问题时是如何思考的，探究他们对问卷中使用的词汇、术语及关键概念的理解。需要记住，访员和受访者对上下文的理解可能不同。

以下是组织焦点小组的关键步骤：

招募参与者：应尽量从调查的目标总体中招募。需决定组建同质化还是异质化小组。如果资源允许，可以组织多个不同特点的小组。
准备主持人指南：为主持人提供明确的指南，说明研究目的、讨论流程、具体的开放式问题，并明确需要解决的问题和寻找的信息。
主持人提问技巧：应提出简短的问题以获得详尽的回答；问题应易于表述；一次只涉及一个议题；使用对话式语气；多提开放式问题；先问正面问题，再问负面问题。

焦点小组能提供丰富的定性信息和多样化的观点。然而，其发现难以推广到更大总体。其优点是效率高、规模小；缺点则是成本较高，涉及招募、激励、场地租赁（如需使用单向镜等设备）等费用。

关于焦点小组有大量优秀的教科书可供参考。

总结

本节课我们一起学习了两种重要的问卷预测试技术。专家评审依靠领域内外的专家经验来发现问题，快速但质量可能不均。焦点小组则通过组织目标人群的小组讨论，深入探究受访者的思维过程和理解，能获得丰富见解但成本较高且结果难以推广。下一节，我们将继续学习另一种定性预测试技术：认知访谈。

069：预测试技术：认知访谈

概述

在本节课中，我们将要学习一种重要的问卷预测试定性技术——认知访谈。我们将了解它的定义、核心方法、实施步骤以及优缺点，帮助你理解如何利用这种技术来评估和改进调查问卷的质量。

什么是认知访谈？

上一节我们介绍了专家评审和焦点小组等预测试方法，本节中我们来看看另一种定性技术：认知访谈。这是一种目前非常流行且被许多机构广泛采用的问卷测试方法。

认知访谈，引用BDN Vlas在2007年的定义，是指在受访者回答问卷草稿问题的同时，收集关于其回答过程的额外信息。这种方法用于评估回答的质量，并判断问题是否能够引出问卷设计者所期望的信息。

从本质上讲，它与之前讨论的专家评审和焦点小组有相似的目标，但更聚焦于具体问题本身。以下两段引文可供你自行阅读。需要指出的是，在进行认知访谈时，以调查回答过程作为指导框架是非常有益的。

认知访谈与焦点小组的区别

认知访谈与焦点小组的关键区别在于，它专注于受访者回答问题时所使用的认知过程。访谈者会使用特定技术来模拟、观察或聆听受访者回答某个问题的思考过程。

通常，认知访谈采用小型的便利样本，但这些样本仍应尽量代表你的目标人群。访谈者需要经过专门培训才能进行此类访谈，因为这与他们常规的访谈任务非常不同。访谈通常在实验室环境中进行，以便记录或观察整个过程。

核心访谈技术

以下是认知访谈中常用的四种核心技术：

出声思考法
口头探查法
复述法
反应潜伏期测量法

此外，你还可以看到“按钮情境法”和“CA分类任务”等技术，它们也可作为认知访谈的一部分，不过我们在此不作详细讨论。

出声思考法

让我们深入了解出声思考法。该方法基于“出声报告法”，如果你参考Ericsson和Simon的研究，其核心假设是：受访者的思维过程是可获取的，并且他们能够报告这些过程；同时，报告过程本身不会改变其思维过程。这些是出声报告法的关键假设。

在出声思考技术中，受访者被要求既回答问题，又同时口头表达出他/她的思考内容。

以下是Gordon Willis在其2005年著作中给出的一个例子：

问题：在过去12个月里，你和医生交谈过多少次？
受访者思考过程：“嗯……‘医生’指的是什么？脊椎按摩师算医生吗？我不太确定具体是什么时候发生的，真的是在过去一年内吗？这有点难回答。”

这张幻灯片包含了许多有趣的信息。你可以看到受访者对“医生”的定义不确定，也不清楚事件是否发生在过去一年内。这些可能被你作为专家早已预见到的答题难点，受访者也确实提到了。

为了有效实施出声思考法，需要应对“出声思考时的漫谈”现象。通常，人们在3岁以后就不再习惯这样做了。因此，你需要训练参与者，并让他们在出声思考时感到非常自在。这是一种不寻常的行为，通常我们会避免这样做。所以，你必须向参与者保证没有对错答案，并且承认自己使用了某种启发式方法来生成答案是完全可以接受的。

这里有一个流传很广的训练示例：

训练任务：试着想象你居住的地方，然后思考那里有多少扇窗户。在你数窗户的时候，告诉我你看到了什么以及在想什么。

你经常会看到（也可以在下次聚会时试试），人们会在脑海中从一个房间走到另一个房间，数着窗户的数量，直到得到总数。人们真的会把这个数字记在脑子里吗？因此，这是一个相当不错的训练任务。

再来看一个Gordon Willis书中的出声思考例子：

问题：在过去12个月里，你和医生交谈过多少次？（我们之前讨论过）
我们学到了什么？ 我们了解到受访者在答案中包含了什么、对受访者而言什么算数什么不算数，以及关于“过去一年”的时间不确定性。

总的来说，出声思考法的产出是非正式的定性评估。你可能需要一个编码方案来总结受访者遇到的问题。如果幸运的话，如果你有录音和一些语音转文字软件，再加上基于计算机的编码方案，你可以进行一点自动编码。我个人很少见到这种情况，但技术发展很快，所以这可能会实现。

出声思考法的优缺点

以下是出声思考法的优点和缺点：

优点：

如果使用标准化的探查问题，这是一种非常易于实施的技术。
访谈者对数据的影响被最小化。
你很有希望获取到真实的思维过程。

缺点：

对受访者负担很重。
如果没有额外的探查，你可能无法获得需要的信息。
培训受访者进行出声思考比较困难。

在本节最后，我们会有一个小任务让你亲自尝试。

其他认知访谈要素：探查法

认知访谈的其他要素是探查法，它有不同类型。

我们区分同步探查和回顾性探查。同步探查指在访谈进行中间询问原因；回顾性探查指在事后询问他们对某个特定问题或所有问题的想法。

这里有一些探查法的例子，你可以再次回顾。它们都出自Gordon Willis的著作，在此选出作为很好的示例，供你设计自己的探查问题时参考。

探查法还可以区分为主动性探查和反应性探查。

主动性探查是研究者主动寻找问题。他们可能从其他访谈中知道这可能是受访者的问题，于是主动去验证对当前受访者是否也是如此。
反应性探查则只是对受访者的反应作出回应。你看到受访者在某个问题上遇到困难，然后提出探查问题。

中性探查也可以区分为主动性探查和反应性探查。这里有几个例子：

主动性探查：“记得告诉我你在想什么。”——这是主动的，你预见到受访者可能忘记告诉你而陷入沉默思考。
反应性探查：“你看起来有些困惑，你在想什么？”或者“我很感谢你努力回忆这些信息。”——这是对出声思考任务的一种反应。

认知访谈的总结与评价

认知访谈非常擅长揭示理解方面的问题，也善于发现回忆和估算的困难。但同样，由于其定性本质，它们不太适合推广到大规模人群。此外，访谈者的介入元素使得不同访谈之间的比较变得非常困难。

我们确实看到不同认知访谈之间存在很大差异。因此，最好不要过早下结论。Fred Conrad及其学生的一项研究表明，在进行认知访谈时，宁愿受访者数量多一些（当然，这可能会增加成本，并且需要你可能不具备的人力资源）。

不同机构实践认知访谈的方式各不相同。正如我提到的，结果也因访谈者而异。有很多优秀的教科书，Gordon Willis的书是一个很好的起点（这也是我们多次引用它的原因）。此外，Presser等人以及Rothgeb等人的著作中，也有对其他认知访谈技术非常有趣的比较。

实践任务

在结束本节之前，我鼓励你在周围找一个人，用下面这四组问题尝试进行认知访谈。我们很乐意在讨论区看到你从中学到了什么，以及发现了这些问题存在哪些不足。

（此处应有一张包含四组示例问题的图片，内容涉及健康行为、财务状况、时间使用和产品满意度等方面的问题，用于实践认知访谈。）

总结

本节课中，我们一起学习了认知访谈这一重要的问卷预测试技术。我们了解了它的定义、与焦点小组的区别、四种核心方法（特别是出声思考法），以及它的优缺点和应用注意事项。掌握这项技术，将帮助你更深入地理解受访者的答题过程，从而设计出更清晰、更有效的调查问题。

在下一节中，我们将讨论行为编码。

070：行为编码 📝

在本节课中，我们将学习一种用于测试调查问题的定性技术：行为编码。我们将了解其定义、用途、编码方案、分析单元、优势与局限性，以及如何解读其结果。

概述

行为编码是对访谈员和受访者行为的一套系统性观察方法，通常基于录音访谈。它能客观地衡量调查问题中存在的问题，具有系统性、可复制性和可靠性。本节将详细介绍行为编码的核心概念与应用。

什么是行为编码？🔍

行为编码是一套对访谈员和受访者行为进行系统性观察的方法，这些观察通常基于录音访谈。它提供了关于问题存在的客观衡量标准。

行为编码的过程是：编码员通过现场聆听或回放录音，观察访谈员与受访者之间的互动。编码员会为观察到的“问题”分配一个分类代码。这种编码会在多位访谈员进行的多次访谈中进行，有助于我们理解问答过程，特别是识别与理想问答序列的偏差——我们正是通过这些偏差来定义问题。

最终，行为编码会生成一份量化总结报告，其中包含用于识别问题性问题的代码。

行为编码的用途 🎯

行为编码可以在调查过程的不同阶段以不同方式使用。

数据收集前：用于预测试问题，这是其主要用途。也可用于预测试数据收集程序。
数据收集中：用于监控访谈过程。
数据收集后：用于评估已收集数据的质量，并探究特定行为的原因和影响。

理想问答序列与偏差

梅纳德和谢弗提出了一个“范式问答序列”或“理想问答序列”的例子。在这个序列中：

访谈员完全按照措辞读出问题。
受访者提供一个充分的或可接受的答案。
访谈员确认该答案，然后继续下一个问题。

行为编码的目的正是检测偏离此类范式序列的情况。

以下是一个偏差不明显的例子（在典型的整体问答序列层面，行为编码可能不会标记）：

访谈员：你每周锻炼几天？
受访者：不好意思，你说什么？
访谈员：你每周锻炼几天？
受访者：7天。
访谈员：好的，谢谢。

这里除了受访者最初没听清问题外，并没有明显问题。是否编码此类情况取决于分析单元的定义。

然而，以下序列则是一个更明显的偏差，表明存在问题：

访谈员：你每周锻炼几天？
受访者：大多数日子。
访谈员：一周六天吗？
受访者：是的。
访谈员：好的，谢谢。

这里，访谈员明显进行了所谓的“指令性干预”或“指令性追问”，为受访者提供了一个对方并未给出的答案。在大多数行为编码方案中，这几乎肯定会被标记为问题。

行为编码方案

以下是一套知名的编码方案，由格罗夫斯等人报告，但实际源自密歇根大学的查理·坎内尔及其同事的工作。它包括一组访谈员代码和一组受访者代码。

访谈员代码包括：

I1：访谈员完全按照措辞读出问题。
I2：访谈员以轻微改动的方式读出问题。
I3：访谈员以改变原意的方式读出问题。

受访者代码包括：

R1：受访者在访谈员读题时打断。
R2：受访者要求澄清。
R3：受访者给出充分答案。
R4：受访者给出有条件/限定的答案。
R5：受访者给出不充分答案。
R6：受访者回答“不知道”。
R7：受访者拒绝回答。

行为编码示例

使用上述编码系统，奥克斯伯格、坎内尔和卡尔顿展示了该方法的有效性。以下是三个问题及其对应的代码使用频率：

问题	访谈员轻微措辞改变 (`I2`)	访谈员重大措辞改变 (`I3`)	受访者打断 (`R1`)	受访者答案不充分 (`R5`)
1. 那次去看医护人员或机构的目的是什么？	2%	1%	1%	2%
2. 你为最近一次就诊自付了或将要自付多少钱？（不包括保险支付部分）如果你不知道确切金额，请给出你最好的估计。	15%	8%	12%	3%
3. 你上次做全面体检是什么时候？	3%	2%	2%	10%

观察表格中的数据，可以发现：

对于问题2，访谈员的“轻微措辞改变”和“重大措辞改变”代码频率显著较高。同时，受访者的“打断”行为频率也突出。这可能是因为问题2包含多个组成部分，访谈员可能在措辞上出错并重新表述，而由于其长度，受访者可能在问题读完前就开始回答。
对于问题3，受访者的“答案不充分”代码频率突出。这是因为该问题没有提供明确的时间范围或答案格式要求，如果问题需要“月/日”而受访者只回答了“月”，则会被标记。

行为编码使这些问题变得显而易见，而这些问题在设计者测试前可能并不明显。

诊断性代码与优势

当行为编码用于预测试时，某些代码尤其具有诊断性。

特别能指示问题的受访者代码包括：要求澄清、要求重复问题、给出有条件答案、不充分答案、“不知道”或拒绝回答。

特别能指示问题的访谈员代码包括：改变问题措辞（无论是轻微还是重大改变）。当某种改变频繁出现时，识别被改变的确切词语就很重要，因为这些词语可能需要被更好的措辞替换。

行为编码的优势在于：

可靠性高：容易在多位编码员之间达成高度一致。
量化结果：能够快速地将定性观察转化为可计量的定量数据。

分析单元

行为编码可以在多个不同的分析层面或使用不同的分析单元进行。

最粗略的单元是整场访谈：这很少使用，因为它对指出需要修改的具体问题帮助不大。
最常用的方法是问答序列：即对我们一直看到的例子进行编码，对访谈员的提问和受访者的回答进行整体编码。
更详细的分析：可以着眼于话语对，或者最详细的分析在话语层面或话轮层面。

不同层面的分析能告诉我们不同的信息：

问题层面：例如，在问题5中，有 X% 的受访者要求澄清；在问题7中，有 Y% 的访谈员出现了轻微措辞改变。
受访者层面：例如，年长受访者比年轻受访者更频繁地要求澄清。
访谈员层面：例如，访谈员A在10个问题上出现了重大措辞改变。

话轮层面的分析比问答序列层面的分析更详细，能提供在更整体层面无法获得的额外信息。话轮分析有时被称为序列分析，例如，它可以分析当受访者的答案不在预设选项内时，访谈员是否重新读了问题（即多个话轮之间存在序列关系）。这有助于解释不同访谈技巧是否有效。

行为编码的局限性

尽管行为编码能提供有益的见解，但该技术也存在一些缺点：

仅揭示可观察的问题：可能无法提供问题根本原因的信息。
不解释问题根源：因此结果可能无法推广到其他问卷，也无助于形成通用原则。
可能遗漏重要的互动现象：当编码在问答序列层面进行时，很难知道访谈员的何种行为先发生并可能导致了受访者的行为（如果未明确编码这种序列关系）。
劳动密集型：对生产截止日期紧迫的情况并非最优选择。
不提供解决方案：不会告诉设计者如何修复问题。

总结与补充方法

行为编码通常使用一套可分为面向访谈员的代码和面向受访者的代码。

典型的访谈员代码：包括读题错误、追问行为及其他涉及追问的错误。
典型的受访者代码：包括要求重复问题、要求澄清、提供无法编码或不可接受的回答、打断访谈员读题、以及表示不确定的迹象。

行为编码告诉我们问题发生的频率，但不直接告诉我们它们为何发生或问题的确切性质。例如，如果受访者打断访谈员，是在哪里发生的？为什么？如果受访者寻求澄清，他们具体问了什么？

为了弥补这些局限性，福勒建议对编码员进行定性汇报。在聆听并编码了可能数百次访谈后，编码员非常接近数据，往往知道发生了什么。因此，他们可以为行为代码所捕获的许多问题的根源提供见解。

课程总结

本节课中，我们一起学习了行为编码这一重要的定性预测试技术。我们了解了它的定义、应用场景、标准编码方案以及如何在不同层面进行分析。同时，我们也认识到行为编码的局限性，并了解了通过编码员汇报进行补充的方法。在下一节中，我们将转向介绍测试调查问题的定量技术。

071：预测试技术：定量方法 📊

在本节课中，我们将学习用于问卷预测试的定量方法。我们将探讨两种基于统计模型的技术：潜在类别分析和结构方程建模，并介绍实地测试（或称试点研究）的作用与实施方法。

到目前为止，我们已经讨论了多种偏向于定性的问题测试技术。

在本节中，我们将把重点稍微转移到更定量的技术上。这不会变成一门统计课，尽管如此，我们仍会讨论用于问题测试的统计模型，包括潜在类别分析，并简要提及结构方程建模。我们不会深入探讨这些技术本身，只是为了让您了解这些方法的存在。如果您想深入研究，可以知道在哪些领域可以找到相关的研究和实用工具。

我还会简要谈谈实地测试。在最后一部分，我们将讨论一些近年来出现的其他问题测试方法。

潜在类别分析

潜在类别分析并非问卷评估所特有，它被广泛应用于各个领域。这项技术有助于减轻测量误差的影响，或估计特定题项的测量误差。

以下是简要背景：您有一组观察到的题项（即多个指标）。在变量建模符号中，可观测变量用方框表示。

它们都是某个潜在变量的函数。例如，某人是否怀孕（在怀孕早期这是一个无法直接观测的构念）。您可以通过各种测试来测量它，比如询问本人（她可能知道也可能不知道），或者进行化验。假设我们有三个有缺陷的尿液测试，每个测试相关的误差应该是相互独立的。只要样本不是在同一地点购买或同一批次生产，每个样本出现错误的可能性就不同。但假设这个人怀孕与否，原则上所有测试应该得出相同的结果。这就是潜在类别分析的核心思想。

在潜在类别分析中，您有一个设定，其中的指标不一定完全没有误差。任何与误差相关的部分，在给定您试图测量的潜在变量的条件下，都被假定为是独立的。

您估计的是该过程中发生的无条件概率和条件概率。对于问题测试，有两个条件概率很重要：一是假阳性率，二是假阴性率。具有高错误率的指标通常被认为是糟糕的问题。

如果用一个2x2的表格来思考，您可以有一个指标U1和U2，以及您的潜在类别结果C1和C2。每个指标都可能是正确的。例如，在您的调查中，关于吸毒的问题回答“是”，而在潜在类别中，真实的构念（吸毒者）也是“是”，这就是一次正确的测量。同样，两者都是“否”也是正确的测量。

您不希望看到的是这些非对角线单元格中有很多值，即您的测量工具出现了假阴性（测量为“否”，但真实潜在构念为“是”）或假阳性（测量为“是”，但真实潜在构念为“否”）。无条件概率指的是处于某一潜在类别的实际概率。

在马里兰大学进行的一项研究中，我们提出了三个不同的问题，都是询问学生在校期间是否曾有过不及格成绩。我们有管理记录来比较这些答案。我们不知道受访者是谁，所有身份信息都已剥离，但我们能够将真实的成绩记录与受访者的答案联系起来，从而检查相对于实际值的错误率。

您在这里看到的是这三个不同问题相对于真实情况的错误率。在这个特定研究中，Q12的错误率非常低，Q18的错误率也非常低，而Q18的错误率非常高。您在这里看到的上升趋势都是假阴性率，而虚线则是假阳性率。实线是与实际记录的比较结果，虚线是潜在类别分析的结果。您可以看到，该技术给出了相同的模式，尽管对于假阴性率的点估计并不完全相同。您可以在提供的论文中阅读更多相关内容。

这种方法存在一些局限性：您需要进行单独的数据收集；样本量不能太小；对于具有两个类别的潜在类别模型，您至少需要三个题项才能使模型可识别。如果没有，可以通过做出一些假设来实现可识别性。Paul Biemer及其同事的许多工作就是研究这些假设，他利用Hui和Walter的早期工作，使用分组变量来帮助实现可识别性。然而，当假设不满足时，您可能会得到这些错误率的偏差估计，这在我刚才提到的论文和您的课程材料中也有讨论。

如果模型假设成立或者您有足够的指标，您可以通过这种方式识别出糟糕的调查题项。但有一个问题是，它无法帮助您了解某个问题存在的原因，因此除非解决方案是直接删除您不喜欢的那个问题，否则它无法建议具体的修正方法。

结构方程建模与SQP软件

另一种潜在的变量建模/结构方程建模技术是SQP软件的核心。这款软件由Daniel Oberski和Willem Saris编写，并在Willem Saris的研究小组中开发。本单元课程材料中提供了该软件的链接。

SQP软件收集了一系列多特质-多方法实验的结果，这些实验在多个国家针对多个题项进行，旨在普遍评估调查问题的效度和信度。其理念是，如果您尝试用不同的方法测量相同的潜在特质，那么所有这些结果应该高度相关。当然，会存在一些方法效应，例如使用的量表类型或提问方式，这些可能导致测量误差。因此，您会看到使用相同方法测量的不同特质的题项之间存在相关性，从而可以将方法效应分离出来。

总的来说，它试图估计效度和信度。这是一项巨大的工程，我们完全可以就此开设一整堂课。但这是一个值得查阅的好工具，我们在后面提供了参考文献。当您使用这款软件时，您需要编码您问题的特征，它会使用基础的回归模型来为您拟合整体的信度和效度分数。

当您使用SQP程序时，正如我所说，您输入您的调查问题，对问题进行编码，然后就会得到预测的效度和信度分数。我强烈建议您尝试一下。查看网站上的链接以获取更多信息。

实地测试

在介绍了这两种更定量的技术之后，我将转向我们要讨论的最后一种方法：实地测试。实地测试有时被称为常规预测试，有时被称为彩排或试点研究。这些概念都包含了对较小样本实施问卷的想法，样本量可能是15到35个与您实际受访者相似的受访者；如果是一次真正的彩排，或者比如为下一次美国人口普查做彩排，样本量甚至可能达到数千。

其目标是采用与您在实际开展调查时相似的数据收集协议，目的是发现实际问题：是否存在访员问题？是否存在受访者问题？链接是否有效？您需要记录问题层面、章节层面以及整个工具的时间，以查看是否在计划范围内，是否匹配您的生产目标。您肯定希望查看关键变量的实际分布、交叉表、缺失数据等。实地测试数据也是一个极好的资源，可以用来实际使用结果。

并开始根据我们在第一单元讨论的分析计划来编写您的分析代码。因为现在您可以反复检查：我的数据集中是否真的包含了所有变量？是否存在任何问题？我是否应该用不同的尺度来测量它们？为了以正确的方式实施分析，我需要进行哪些更改？这是在您分析的最后阶段。

在实地测试中，您还可以额外进行我们之前讨论过的行为编码，可以内置我们学过的认知探针，可以进行一些受访者汇报（在事后询问受访者关于填写问卷的任何体验），可以向访员进行汇报，然后就可以开始您的统计分析，包括效度、信度、潜在类别模型、结构方程模型等——当然，前提是您的实地测试规模足够大，有足够的案例来进行任何更定量的技术。您拥有的案例越多，成本当然也就越高，尤其是当您添加了这些附加目标时。

在下一节中，我们将讨论其他一些技术。特别是，如果您有较大的试点测试，这些技术可以很好地实施。

总结

本节课我们一起学习了问卷预测试中的定量方法。我们介绍了潜在类别分析，它通过估计假阳性率和假阴性率来识别测量误差高的题项。接着，我们了解了基于结构方程建模的SQP软件，它能预测问题的效度和信度。最后，我们探讨了实地测试（或试点研究）的作用，它通过模拟真实调查环境来发现实际操作问题，并为后续分析提供数据基础。这些方法共同帮助研究者优化问卷，提升数据质量。

072：预测试技术：其他方法 📊

在本节中，我们将探讨预测试阶段中除核心方法外的一系列其他技术。这些方法有助于从不同角度评估问卷，确保其质量和有效性。

上一节我们介绍了认知访谈等核心预测试方法，本节中我们来看看其他一些实用的补充技术。

访谈员汇报会 🗣️

访谈员汇报会是一种在预测试或正式调查后，与访谈员进行交流以收集反馈的方法。这种方法成本相对较低，但能有效发现问卷在实地执行中的问题。

以下是访谈员汇报会的关键点：

形式：可采用一对一访谈或小组焦点团体形式进行。
目的：旨在发现问卷中的逻辑跳跃错误、排版问题、受访者感到困难或不愿回答的题目。
优势：访谈员能提供关于问卷或特定题目耗时的主观感受，这是单纯计时无法获取的信息。

受访者汇报与嵌入式问题 ❓

除了访谈员，直接向受访者获取反馈也是一种方式。这通常在实验室环境中进行，在实地调查中较为少见。

具体做法是在问卷末尾嵌入一些额外的汇报性问题。例如：

通用问题：“您觉得这份问卷的难度如何？”
具体问题：“关于‘您的工作满意度’一题，您是如何理解‘满意度’这个词的？”

这种方法类似于简化的认知访谈，但目的更侧重于收集整体反馈，而非深入探究认知过程。

问卷措辞实验与拆分样本测试 (A/B Testing) 🧪

对于调查方法学家而言，问卷措辞实验是常用工具。其核心是通过对比不同版本的问卷，评估措辞、题目顺序或选项格式的影响。

常见的实验设计包括：

拆分样本测试：将样本随机分为两组，分别使用问卷的A版本和B版本。
随机化：随机化题目顺序或选项顺序，以测试顺序效应。
题支不对称性：我们之前讨论过，通过调整肯定/否定选项的数量来测试反应偏差。

情境问卷法 (Vignettes) 📖

情境问卷法通过描述一个假设情境（即“情境”），并系统性地改变情境中的关键变量，来研究人们如何回应。它既能用于研究实质性问题，也能测试不同的问题措辞。

其基本公式可表示为：
响应 = f(情境特征1，情境特征2， ...，受访者特征)

例如，在研究公众对政策的态度时，可以构建不同版本的情境描述，改变政策成本、受益群体等变量，观察公众态度的变化。需要注意的是，受访者的回答基于假设情境，而非实际行为。

利用辅助数据：响应时间分析 ⏱️

在现代调查中（特别是电话、网络或电脑辅助调查），我们可以收集辅助数据，例如回答每个问题所花费的时间。

通过分析响应时间，可以评估题目质量：

响应过快：可能表明受访者未认真思考或存在“满足”现象。
响应过慢：可能表明题目难以理解或令受访者感到困惑。
分析时通常将单个受访者的时间与整体分布进行比较，并可能控制一些协变量（如受教育程度）。

预测试方法比较总结 📋

我们可以从三个维度评估和比较各种预测试方法：

探索性：该方法在发现问题方面的效果。
验证性：该方法在确认或排除其他结果所怀疑问题方面的效果。
修订建议：该方法在提出改进建议以提升数据质量方面的效果。

以下是主要方法的优缺点简述：

专家评审

优点：成本效益高，能识别多种问题并提供修订建议。
缺点：依赖于评审专家的类型，且缺乏真实受访者的视角。

焦点小组

优点：适用于对某主题或子群体了解甚少时；方法灵活，能捕捉意外信息；信息直接来自目标群体。
缺点：小组动态需妥善引导；分析耗时；样本量小，需谨慎解读结果。

认知访谈（出声思考法）

优点：能避免访谈员偏差和事后偏差，直接获取受访者思维过程。
缺点：需要训练受访者；效果因题而异；可能干扰正常的答题流程。

认知访谈（探查法）

优点：直接从受访者获取反馈；问题针对性强；访谈员可聚焦于疑似问题点；易于向受访者介绍。
缺点：探查可能改变问卷流程（反应性）；假设受访者愿意承认困惑。

潜在类别分析

优点：提供误差率的定量测量；在有多重测量时无需“金标准”。
缺点：依赖于统计假设（如误差条件独立），且这些假设有时无法检验。

访谈员汇报会

优点：能评估题目执行过程的困难；可利用访谈员的多样经验。
缺点：访谈员对受访者困难的归因可能不准确。

情境问卷法

优点：研究敏感话题时威胁性较低；能系统操纵变量以测试不同问法。
缺点：回答基于假设情境，而非实际行为。

撰写预测试报告 📄

预测试结束后，务必撰写一份结构清晰的测试报告。报告应包含以下部分：

预测试的目的。
测试对象群体的性质及招募过程。
测试的受访者数量及简要统计。
访谈员的数量和经验描述。
所使用的测试技术。
按题目逐条总结的结果与修订建议。
测试的局限性。
后续步骤。

可以参考美国疾控中心（CDC）的“问卷设计诊断系统”（QDDS）等项目，来帮助记录问卷修订过程。此外，荷兰的“调查质量预测”（SQP）数据库可用于评估所选问题的效度和信度。

本节课中我们一起学习了多种预测试的补充技术，包括访谈员/受访者汇报、问卷实验、情境法以及响应时间分析。我们比较了各方法的优缺点，并强调了撰写规范测试报告的重要性。掌握这些方法将帮助您更全面地评估和优化调查问卷。

在接下来的单元中，我们将把这些知识综合运用起来。

073：从设计到实施：问卷编排全流程 📋

在本节课中，我们将学习如何将设计好的单个问题整合成一份完整的问卷。我们将探讨问卷的编排流程，包括如何安排各个部分、如何设计友好的布局，以及如何根据不同的数据收集模式进行调整。

上一节我们介绍了问卷中单个问题的设计。本节中，我们来看看如何将所有问题系统地组织起来，形成一份有效的调查工具。

第一步：引言设计

一份问卷的开头至关重要，它决定了受访者是否愿意并能够正确地参与调查。引言应清晰、简洁，并包含必要信息。

以下是引言中应包含的核心要素：

调查主体：说明是谁在进行这项研究。
研究目的：简要说明调查是关于什么的。
时间预估：告知受访者完成问卷大致需要多长时间。
保密性与自愿性：明确告知参与是自愿的，并且他们的回答将被保密。通常伦理审查委员会会要求包含此项。
联系方式：如果适用，提供当地或机构伦理审查委员会代表的联系方式。

引言的内容会根据数据收集模式而变化：

访谈员主导的调查：信息通常包含在“上门介绍”中，访谈员经过培训，可以根据受访者的反应灵活介绍。
自填式调查：所有信息都需要在“预先通知信”或网络调查的“帮助链接”中明确写出。

此外，调查的性质也会影响引言：

固定样本调查：在后续轮次中，只需提供部分新信息，因为许多内容已在首轮招募时告知。
横断面调查：通常需要提供更全面的介绍信息。

第二步：筛选模块

在引言之后，许多调查会包含筛选问题。这些问题的目的是确定受访者或家庭是否符合调查的目标人群标准。

以下是使用筛选问题的几种常见情况：

目标人群调查：例如，只调查家中有孩子的家庭，或特定年龄段的成年人（如35-55岁）。
一般人群调查中的户内抽样：即使面向一般人群，也可能需要从家庭中随机选择一人接受访问，而非访问所有成员。这个过程需要脚本化，并成为问卷的一部分。

户内随机抽样的方法主要有以下几种：

完全概率方法：需要完整的家庭成员名单。最著名的是基什表法。首先请受访者列出所有家庭成员的姓名和年龄，然后使用一个类似随机数表的“基什表”随机选择一人。这种方法科学但耗时，可能让受访者感到侵扰。
准随机概率方法：无需完整名单。最流行的是“下次/上次生日法”。访谈员会问：“为了确定访问谁，请问您家中所有18岁及以上的成年人中，谁最近刚过生日？”这种方法假设生日是随机的，从而进行准概率抽样。它负担较轻，但“生日非完全随机”是其潜在弱点。
非概率方法：无需家庭名单，通常旨在根据人口特征（如确保年轻男性的受访比例）获取样本，但牺牲了随机性。
混合方法：基于家庭规模的混合选择方法，如“R法”。

第三步：核心问卷与人口统计问题

通过筛选模块后，便进入问卷的核心部分。核心问卷应逻辑清晰，问题顺序由易到难，由一般到具体。

一个重要的编排原则是：人口统计问题（如年龄、收入、教育程度）通常放在问卷末尾。这是因为：

这些问题可能涉及隐私，放在开头容易导致拒访。
在受访者完成主要部分后，建立了初步信任，更可能回答这些敏感问题。

第四步：问卷结尾

问卷的结尾应与开头一样经过精心设计。它通常包括：

感谢语：真诚感谢受访者的时间和参与。
再次保证：重申数据的保密性。
后续步骤（如适用）：例如，告知他们如何查询结果，或如果参与的是固定样本调查，下一轮访问的大致时间。
联系方式：再次提供研究团队的联系方式，以备受访者有疑问或需要更多信息。

第五步：模式考量与选择

在设计问卷编排时，必须考虑数据收集的模式，因为不同模式对问卷设计和流程有直接影响。

以下是不同模式下的关键考量：

面对面访谈：可以利用视觉辅助工具，流程可由访谈员灵活控制。需要训练访谈员处理复杂的跳转逻辑。
电话访谈：完全依赖听觉，问题必须极其清晰。跳转逻辑需要预先编程到计算机辅助电话访问系统中。
网络自填：可以包含丰富的视觉元素和互动功能。跳转逻辑自动执行，但需要确保界面在不同设备上都能友好显示。
纸质自填：设计必须一目了然，跳转指令（如“如果选‘是’，请跳至第5题”）必须非常明确，因为无法自动执行。

选择模式时，需权衡成本、覆盖率、数据质量以及调查主题的敏感性。

本节课中，我们一起学习了问卷从设计到实施的全流程编排。我们从撰写清晰的引言开始，讨论了如何通过筛选模块确定目标受访者，然后规划了核心问题与人口统计问题的顺序，并设计了得体的结尾部分。最后，我们强调了数据收集模式对问卷设计的具体影响。记住，良好的问卷编排不仅能提升受访者的体验和合作意愿，也能显著提高最终收集数据的质量。

074：动机性低报：精选研究案例 📊

在本节课中，我们将学习一项关于调查中“动机性低报”现象的具体研究案例。我们将探讨受访者为何以及如何在筛选问题、过滤问题和面板调查的重复问题中提供不准确的信息，并了解一项旨在量化此现象的实地实验设计及其结果。

研究背景与问题

上一节我们介绍了测量误差的类型，本节中我们来看看一个具体的案例研究。这项研究由我与Roger Tourangeau和Stephanie Eckman合作完成，并获得美国国家科学基金会的资助。

我们的核心研究问题是调查中三种相关的测量误差形式：

筛选问题中的误报。
过滤问题中的误报。
面板调查中重复问题的误报。

我们认为，这些误报背后的机制是受访者为了减轻访谈负担而做出的选择。例如，在筛选访谈中，受访者可能通过声称自己不符合条件来避免参与整个冗长的调查。

实验设计与方法

为了研究上述问题，我们资助并实施了两项调查。这里主要报告第一项电话调查的结果。

实验设计包含以下三个交叉的操纵变量：

以下是实验的具体操纵方式：

筛选问题措辞：受访家庭被随机分配到三种筛选条件之一。
- 条件A（直接询问）：询问“家中是否有35-55岁的人？”
- 条件B（反向排除）：询问“家中所有人是否都小于35岁或大于55岁？”
- 条件C（完整花名册-控制组）：询问所有家庭成员的年龄、性别和种族信息。
预先通知信：一半的受访家庭会收到一封揭示目标人群年龄范围（35-55岁）的信件，另一半则不会。
访员报酬方案：访员被随机分配到三种报酬方案之一。
- 方案A：完成筛选访谈即可获得奖金。
- 方案B：完成完整的主访谈才能获得奖金。
- 方案C：无额外奖金。

实验结果与分析

实验的结果通过几个关键指标来呈现：筛选完成率、合格率、访谈完成率、响应率以及最终的有效样本量（产出）。

以下是核心发现：

筛选方式的影响：使用“完整花名册”方法（条件C）最终获得的有效样本量最高。然而，它的响应率却最低。这是因为该方法发现了更多符合条件的家庭，但同时也有更多符合条件的家庭拒绝参与主访谈。这相当于将覆盖误差（漏报）转化为了无应答误差。
预先通知信的影响：预先通知信对合格率没有显著影响，但对访谈完成率有影响。
访员报酬的影响：报酬方案对整体响应率和合格率影响不大，但对具体任务有细微影响：为完成筛选而获得奖金的访员，其筛选完成率更高；为完成主访谈而获得奖金的访员，其主访谈完成率更高。
访员个体差异：研究发现，不同访员之间的表现差异远大于任何实验条件带来的差异，这表明访员的个人特质和执行方式对结果有巨大影响。

结论与权衡

本节课中我们一起学习了动机性低报的研究案例。这项研究揭示了一个关键权衡：当设计筛选问题时，研究者需要在无应答误差和测量误差（及覆盖不足） 之间进行权衡。

同时，在获取信息的准确性与受访者感知到的隐私威胁/负担之间也存在权衡。更精确的筛选方法（如完整花名册）可能降低响应意愿，而更快捷的方法则可能引入更多误报。

如果您希望深入了解本研究，相关论文的参考文献已在课程网站列出，可供下载查阅。

075：主问卷结构与收尾设计

在本节课中，我们将学习主问卷的结构设计，特别是问题顺序、模块划分、过渡、分支指令以及问卷收尾部分的安排。这些设计元素对于确保数据质量、降低无回答误差和提升受访者体验至关重要。

上一节我们介绍了问卷设计的核心原则，本节中我们来看看如何将这些原则应用到主问卷的具体结构设计中。

问题顺序与模块化

问卷应以相关且易于回答的问题开始。即使该问题并非分析的核心，它也能帮助受访者轻松进入状态，提升参与意愿。

以下是设计问题顺序与模块的关键点：

避免以人口统计问题开头：新手常犯的错误是以年龄、性别等问题开始问卷。这并非理想做法。
按模块分组问题：将相关问题归入同一模块，并按逻辑顺序排列。通常，顺序是从与调查主题最相关（最显著）到最不相关。
敏感问题置后：敏感问题应放在问卷靠后的位置。如果研究的核心就是敏感问题，则需要在此原则与其他设计目标之间权衡。
警惕顺序效应：问题顺序不应引入偏差。需回顾课程中关于“语境效应”的内容，以避免此类问题。

编号、编码与过渡

清晰的结构有助于数据管理和分析。所有问题都应编号，无论是顺序编号还是模块内编号。

为回答选项分配数字代码时需谨慎。一种推荐做法是：如果真实答案的数值范围不含负数，则使用负数（如-1， -2）来编码“拒绝回答”、“不知道”或“不适用”。这样在后续分析中为变量分配缺失值代码时，可以避免与真实答案（如年龄98岁）混淆，操作更简便。

编码一致性对数据录入员也很重要，能防止意外混淆“是”与“否”等选项的代码。

问卷中不同模块之间需要自然的过渡语句，例如“现在，我想请问您...”。过渡能引导受访者，避免话题跳跃感。但需注意，过多的过渡文本，尤其是在自填式问卷中，可能适得其反。

分支指令与跳转逻辑

当问卷包含不适用于所有受访者的问题时，需要使用筛选问题进行分支跳转。

必须提供清晰的分支指令，绝不能让访员或受访者自行决定跳转逻辑。否则会产生两种错误：

执行错误：受访者本应跳转但未能跳转，回答了本不该回答的问题。这会让受访者困惑，并为分析带来困难。
遗漏错误：受访者本不应跳转但错误跳转，导致漏答了本该回答的问题。这会造成无法修复的缺失数据，只能通过插补来估计缺失值。

研究表明，执行错误比遗漏错误更常见。通过优化指令设计（如在自填问卷中使用箭头等视觉指引），可以显著减少执行错误，但有时可能轻微增加遗漏错误。这需要设计者进行权衡。

人口统计问题与问卷收尾

在问卷主体部分之后，通常安排人口统计问题。常以“最后，为了分类目的...”等过渡语引入。

设计人口统计问题时，需与加权计划和分析计划保持一致。例如，若计划使用美国人口普查局的数据进行事后分层加权，则人口统计问题的措辞应能与普查问题对应。

问卷结束时，务必感谢受访者。通常可留出开放空间供受访者提供额外反馈。此外，可能需要再次提供项目联系信息或IRB（机构审查委员会）信息。如果涉及后续质量检查、邮寄激励报酬或是固定样本组研究，则需在此处询问并记录联系方式（如手机号、家人联系方式等），以便未来跟进。

在在线讨论中，有学员指出了“显著问题置前”与“敏感问题置后”之间的张力。平衡这些标准具有挑战性，我们将在后续章节中探讨更多决策方案。同样，调查实施的模式也会影响具体问题的设计，这也将在接下来的章节中讨论。

本节课中我们一起学习了主问卷的结构设计要点，包括问题顺序、模块化、编码、过渡、分支逻辑以及收尾部分的设计。这些细节共同作用，旨在提升数据质量与受访者合作体验，为后续的数据分析奠定坚实基础。

076：模式选择对版式设计的影响 📝

在本节课中，我们将学习数据收集模式的选择如何影响问卷的版式设计。我们将探讨不同模式的特点、优缺点，以及如何根据研究目标、受访者群体和资源限制来选择合适的模式。

模式选择的重要性

选择数据收集模式可能是一个难题。本节将讨论不同的数据收集模式及其对问卷版式设计的影响。

可选择的模式很多。从结构上思考不同模式是有益的。

以下是一个表格，展示了不同模式的特征：

呈现渠道：是听觉的还是视觉的。
回答模式：是口头的、通过键盘的，还是书面的。
辅助方式：是计算机辅助的还是纸笔的。
执行方式：是有访员参与的，还是受访者自填的。

表格右侧列出了方法论学者喜欢使用的各种缩写。你可能已经在许多论文中见过这些缩写。将它们映射回这些特征，有助于你思考在问卷设计中需要为版式做些什么。

数据收集模式的影响

现在，我们来看看数据收集模式可能产生的影响。模式是一系列特征的集合。

模式影响：你可以使用的抽样框和抽样方法。
模式影响：你如何培训和监督访员。
模式影响：你如何联系和招募受访者。
模式影响：当然，它也影响执行方法和回答模式。

所有这些特征都可能影响误差来源。它们与覆盖误差、抽样误差、无回答误差和测量误差相关。测量误差是本课程的重点，但正如我们在最开始展示的，在设计问卷时，将整个总调查误差框架记在心中非常重要。

有时，你希望在问卷中包含一个也在抽样框上的问题。这样你就有机会将测量误差与抽样框上的信息进行比较。有时，在招募阶段收集的信息也在问卷中进行测量会很有帮助。例如，访员观察在适应性设计模型或预测无回答时越来越受关注。但为了评估这些访员观察的质量，你最好在问卷中包含要求访员观察的相同问题，这样你至少可以评估这些观察的质量。

呈现渠道的优缺点

呈现渠道有几个有趣的优缺点，我们应该记住。

听觉渠道：
- 优点：没有识字要求。根据你工作的国家，或如果你在不同种族、民族群体或国家之间进行比较，这可能会显著影响你的整体结果，因为如果你使用需要阅读的视觉模式，你会自动失去一些不符合识字要求的案例。
- 缺点：当受访者听问题和答案选项时，工作记忆负担更重。你可能会看到近因效应，我们在关于问题顺序的章节中讨论过顺序效应等。这是需要注意的。如果是听觉的，你可能希望访员念出的答案选项集合比问卷视觉结构中的集合短得多。
视觉渠道：
- 优点/缺点：与听觉渠道相反。它要求阅读能力，但减轻了工作记忆负担，并允许呈现更长的答案列表。

回答模式的优缺点

回答模式也有积极和消极的影响。

口头回答：几乎每个人都能做到。
书面和键盘回答：需要识字能力，并且需要计算机技能。

技术迟早会提供帮助。如果已经有一些移动设备服务允许受访者以口头方式给出答案，并自动转换为文本，我也不会感到惊讶。因此，这些表格当然会很快过时。

计算机辅助与纸笔模式的优缺点

在计算机辅助与纸笔这两种不同的数据收集模式中，各自的优缺点是什么？

计算机辅助问卷：
- 优点：能完美处理跳转逻辑。点击一个框，会自动跳转到问卷的另一部分，至少不会意外地出现遗漏或错误执行。你可以控制问题呈现的顺序。你可以随机化问题和回答选项，从而减轻我们在整个课程中看到的顺序效应。
- 缺点：在计算机辅助问卷中，你无法控制谁在做问卷，除非这是在由访员执行的调查中，访员只是将笔记本电脑转过来。
纸笔问卷：
- 优点：对受访者来说，他们可以翻阅问卷，大致了解问卷的长度以及他们是否真的想做。
- 缺点：研究人员依赖受访者浏览问卷，他们无法控制何时回答哪个问题，因此这些情况可能会受到研究人员未计划或未研究的上下文效应的影响。

访员执行与自填问卷的优缺点

以下是访员执行与自填问卷的一些更多优缺点。

访员执行问卷：
- 优点：往往数据质量更好，因为访员有机会激励受访者、追问和澄清。对于没有敏感问题或激励非常重要的调查，没有什么比访员执行问卷更好的了。
- 缺点：存在访员效应，并且在涉及敏感问题时，可能存在相当大的社会期望偏差。
自填问卷：
- 优点：没有访员效应，没有社会期望偏差。
- 缺点：缺乏访员的即时激励和澄清。

如果访员在场，但问卷仍是自填的，那么访员可以激励，但社会期望偏差和访员效应会减少。如今，如果你看这里的右下角，网络调查尝试实验一些方法，以捕捉受访者何时有疑问或可能需要澄清，并尝试让计算机自动反应并提供额外的解释和反馈。Fred 的一些研究将向你展示这一点，我们也有额外的章节让你了解这可能如何运作。

如何选择模式

现在，问题是如何选择模式。一种确定方法是：受访者样本是如何被联系和接触的？这可能会决定你必须使用哪种模式，或者根据你的目标群体，你不想使用哪种模式。

在CATI和IVR调查中，受访者必须有一个电话号码（可以是固定电话或手机）。
在CAPI调查中，受访者必须有一个可以联系的地址。
在网络调查中，他们必须能访问互联网，并且你必须拥有受访者的电子邮件地址或邮寄地址来发送网络调查的信息。

当然，这些模式可以组合使用，我们稍后会谈到。但你可以设想一种情况：你先进行电话调查招募，然后回头向受访者索要他们的电子邮件地址。尽管如此，他们需要一个电子邮件地址，或者你可以告诉他们一个网页和登录信息。通过电话进行网络调查要求受访者至少能访问互联网。

模式选择也受主题敏感性的影响。如果你有敏感话题，那么你会倾向于选择自填模式；如果话题非常简单，你也可以轻松地进行自填模式；复杂的问卷、长的问卷，则更倾向于面对面执行；如果话题非常困难，那么访员执行模式也是可取的。

不过，最重要的是预算和时间框架。如果需要快速且成本低廉，大多数人最终会选择网络调查。但让我再指出一点：受访者必须能访问互联网。一些调查确实会为受访者提供互联网接入，以确保不会失去那些没有接入的人。因此，你会看到该领域越来越多地转向这些模式的混合与匹配。

混合模式设计示例

让我们看看混合模式设计的例子。混合模式设计是指在同一个调查设计中混合使用不同的调查模式。

例如，可以先进行邮件调查，然后通过电话和面对面访谈进行跟进。美国人口普查局就采用了这种方法。

优点：你最大化了回答率并降低了成本。你可以最大化质量和效率。
缺点：可能存在模式效应——人们对管理模式的反应不同（口头或视觉呈现方式不同），同样，回答选项也可能产生影响。此外，不同的人通过不同的模式被招募，他们通过不同模式的回答也不同。这些回答上的差异反映了真实的差异、构成差异还是回答误差，你不得而知。因此，最好看看现在已有的许多混合模式研究，看看你可以在设计中加入什么，以便至少能够测量其中一些效应，或者在拥有数据后将其区分开来。

跨模式问卷设计的一致性

这里有一个在线发布的问题。对此类问题的一般回答是：你应该始终努力在任何给定模式下最大化质量。

研究尚未固化到给出明确的答案，即在哪种情况下什么是最好的。但在所有模式中保持完全相同似乎是不幸的，因为你最终得到的是最小的公分母，而不是最大化每种特定调查模式的潜力，并在每种模式下获得可能的最佳数据质量。

总结

本节课中，我们一起学习了数据收集模式的选择如何深刻影响问卷的版式设计和整体数据质量。我们分析了不同模式（如听觉/视觉呈现、口头/书面回答、计算机辅助/纸笔、访员执行/自填）的优缺点，并探讨了如何根据抽样框架、主题敏感性、受访者特征以及预算和时间限制来选择或组合模式。记住，关键在于在总调查误差框架下，为你的特定研究目标和情境选择能最大化数据质量的模式，而不是盲目追求跨模式的一致性。在下一节中，我们将讨论自填问卷的一些注意事项，特别是关于如何最大化其潜力。

077：自填问卷的额外要求 📝

在本节课中，我们将探讨自填式问卷（如邮寄问卷）在设计时需要满足的额外要求。这些要求旨在提升问卷的可用性、数据质量与回复率。

核心要求：用户友好性

上一节我们介绍了问卷设计的一般原则，本节中我们来看看自填问卷的独特之处。其核心要求是整体用户友好性。

如果问卷看起来用户友好，将有助于降低单位无回复率。许多由唐·迪尔曼及其同事进行的研究都证实了这一点。
用户友好的设计也能减少项目无回复并提升数据质量。
如果受访者能清晰地知道他们需要做什么，整个问卷应能激励受访者认真作答。
如果问卷看起来重要且专业，受访者会认为值得花时间填写。
反之，如果问卷看起来连研究者自己都不在乎，受访者为何要回复？

注意平衡：设计不应过度。例如，一份问卷若设计得像精美的杂志，受访者可能更愿意将其留在候诊室翻阅，而非填写。因此，需要在保持科研问卷的专业性与吸引受访者作答之间找到平衡。

封面页与说明

以下是自填问卷封面页通常包含的要素：

调查名称。
样本ID或其他识别受访者的方式。这有助于追踪回复情况，识别无回复偏差，并决定向谁发送提醒。
数据收集日期。这在计算机辅助访问调查中通常由程序自动记录，但对于分析很有帮助（例如，可分析访问员随着时间推移可能产生的影响）。
填写说明。这些说明可放在封面页或附信中，但需确保受访者能方便地看到。
常见问题解答。例如，数据用途、如何填写及寄回问卷。
相关图片。研究表明，与受访者或其所在领域相关的图片可能产生积极效果，但同样不宜过度。

内部设计要素

在问卷内部，应包含一些便于填写和机器读取的设计特征：

边缘编码：帮助自动阅读设备对齐问卷。
颜色编码：区分不同部分。
显著的答案填写处：例如，清晰标记的方框，并注明期望的数字位数。
清晰的问题顺序。
突出的答案类别提示。

所有这些特征都有助于提升问卷质量。

格式建议：宜用与忌用

唐·迪尔曼提出了一些设计自填问卷的格式指南。

应避免的格式：

避免在单张纸的正反面都印刷，因为受访者容易忽略背面。
避免仅左上角装订，这样末页容易丢失，可能导致人口统计信息缺失。

应考虑的格式：

采用横向印刷并折叠成小册子，然后沿书脊装订。这能防止丢页，并使受访者在翻阅时注意到每一页。
对于不希望被注意的内容（如供录入员使用的答案编码），应通过视觉设计明确区分或尽量缩小，以免干扰受访者。
利用视觉线索（如相近的间距或阴影）表明内容属于同一主题，帮助受访者理解。
所有问题垂直对齐，避免混合水平与垂直布局，以免造成填写顺序混乱。
使用窄列排版，鼓励完整阅读，并让受访者有持续进展的感觉。
确保问卷易于填写，目标应是让填写过程简单、顺畅，甚至有趣，避免给人税务表格般的压迫感。
避免将同一问题拆分到不同页面，这会导致不必要的数据缺失。
一次只问一个问题。

问题结构示例

以下是一些具体的问题结构示例：

低效结构：将多个具有相同答案选项的问题机械地重复排列。例如：

缺乏租赁住房的重要性如何？【选项】
道路和街道维修差的重要性如何？【选项】
高效结构：将问题项分组列出，并共用一套答案选项。例如：

以下各项对您的重要性如何？
A. 缺乏租赁住房【选项】
B. 道路和街道维修差【选项】

注意：不要强行共用答案选项，除非它们确实适用于所有问题。如果不确定，请回顾关于答案选项设计的章节。

访问员协助调查的额外要求

对于访问员协助的调查（如电话或面访），问卷设计需额外注意：

明确标注：清楚告诉访问员哪些内容不应读出，哪些需要强调，以及哪些需要替换（例如，括号内填入受访者姓名或当前日期）。
提供快捷键：在计算机辅助问卷中，为访问员设置快捷键，以便快速获取帮助功能。
明确代码：让访问员清楚知道代表“不知道”或需要记录特殊行为（如对某个问题讨论较多）的代码。

总结

本节课中我们一起学习了自填问卷设计的额外要求。核心在于通过用户友好的整体设计来提升回复率和数据质量。具体包括设计专业的封面页与说明、采用清晰的内部布局与视觉线索、遵循有益的格式建议以优化填写体验，以及避免低效的问题结构。最后，对于访问员协助的调查，需提供明确的操作指引。记住，在问卷的结尾，别忘了向受访者致以诚挚的感谢。

078：课程总结：单元要点回顾 🎯

在本课程中，我们学习了调查问卷设计、数据收集与分析中的核心概念与最佳实践。本节是课程的最后一讲，我们将回顾每个单元的关键要点。这些要点虽未涵盖课程全部内容，但突出了我们希望在课程结束时强调的核心思想。

第一单元：测量误差与访谈技术 📝

上一节我们介绍了课程概述，本节中我们来看看第一单元的核心内容。第一单元介绍了测量误差的三个来源：访谈员、受访者和问卷本身。我们讨论了测量误差可能表现为偏差和方差。来自不同学科背景的读者，可以将其理解为效度和信度。

我们还介绍了不同的访谈技术：

标准化访谈：旨在向所有人提供相同的刺激，保持问题措辞恒定。
对话式访谈：旨在促进对调查问题（尤其是定义）的统一解释。

第一单元结束时，我们强烈建议在问卷规划之初就进行良好的概念界定，并在开始调查前就构思好分析计划，以确保问卷包含所有必要项目。

第二单元：受访者的回答心理过程 🧠

在了解了误差来源后，我们深入探讨了受访者的内心活动。第二单元探讨了受访者从听到问题到给出答案期间的心理过程。

以下是回答过程的四个主要阶段：

理解：受访者理解被要求提供什么信息。
提取：回忆相关信息以形成答案。
判断与估计：当回忆的信息不足时，通过判断和估计进行补充。
映射：将心中的答案映射到封闭式问题提供的选项上。

我们讨论了每个阶段都可能引入误差。

第三单元：问题类型与设计实践 ✍️

基于对心理过程的了解，第三单元我们研究了不同的问题类型，并将第二单元的知识与每种问题类型的最佳设计实践联系起来。

我们首先简要讨论了事实与准事实，指出并非所有看似事实的信息都易于报告。然后深入探讨了记忆问题，并指出避免回忆误差的一个好方法是使用更短的回忆期。虽然研究者可能想询问很久以前发生的事，但更好的做法是使用不同的方法（如更短的回忆期、更好的回忆线索）来提问。

第三单元还有多个视频讲解如何询问敏感问题。我们介绍了减少社会压力有助于报告敏感行为或态度。自我管理、问题措辞、匿名性和隐私都是设计敏感问题时需要考虑的重要因素。

第四单元：态度与意见问题 🗣️

第四单元关注态度或意见问题。主要要点之一是，态度问题对呈现的语境非常敏感。这包括问卷中问题的顺序、答案选项的顺序，这些都会影响受访者的回答。语境也指外部环境，例如受访者在参与调查前接触的媒体信息。

我们讨论了如果提供“不知道”选项，受访者就会使用它。因此，是否设计“不知道”选项取决于项目目标。我们还花时间讨论了同意-不同意量表，指出它们可能助长默许偏差（受访者倾向于给出他们认为礼貌或能展现积极形象的答案）。最后，我们探讨了满足感的概念，即受访者希望最小化努力并走捷径。为了减少这种倾向，设计者应保持任务简单，而前测是判断任务是否足够简单的好方法。

第五单元：问卷前测与迭代设计 🔄

在讨论了各类问题设计后，第五单元我们详细讨论了前测的重要性。作为课程的一部分，我们无法让大家以各种格式起草并测试问卷，但大家在整个课程中至少从同学那里获得了一些专家评审。我们希望在本课程中结识的人能成为未来工作中的专家评审来源。

当然，其他从前测受访者那里获得反馈的技术，如认知访谈，也非常重要。我们想再次强调，不应忽略这方面的预算。与整个调查数据收集相比，前测和访谈员培训并不昂贵，在规划研究时应牢记这一点。

还应记住，问卷设计是一个迭代过程，每次迭代中的前测都有助于改进最终产品。

第六单元：整体问卷设计与整合 📑

最后，在第六单元，我们讨论了如何将所有部分整合成一个完整的问卷。我们指出，应以与问卷主题相关的问题开始。让问卷具有吸引力并保持良好的话题流很重要，尽管切换话题是可以的。总的来说，尽可能缩短问卷对调查有利，这又回到了第一单元我们讨论的：在心中有分析计划很重要，因为这允许你剔除研究中后期并不真正需要的问题。

本课程没有足够时间讨论所有不同访谈模式（网络调查、访谈员管理调查、电话调查）的所有设计特点，但我们触及了一些。我们想再次指出，任何形式的计算机辅助都有助于流程控制、跳转逻辑以及敏感问题的管理。最重要的是要记住，受访者回答调查问题是帮我们的忙，因此尽可能简化他们的任务应是目标。

超越问卷设计：调查中的其他误差源 📊

从讨论区的帖子可以看出，一些学员希望获得问卷设计之外、关于调查过程其他环节的信息。下图（源自早期课程）列出了所有不同的误差来源。本课程仅关注测量误差，但调查过程中充满了其他误差源。有其他课程专门关注测量误差以外的误差，但那是本课程的焦点。这并非说学习其他误差源不重要，密歇根大学和马里兰大学的两个项目会尽力提供相关信息，并不断增加在线课程，希望未来能在其中见到大家。

总结

在本节课中，我们一起回顾了《调查数据收集和分析》课程各单元的核心要点：从测量误差和访谈技术，到受访者的回答心理过程、各类问题的设计实践、态度问题的语境敏感性、前测与迭代设计的重要性，以及最终的整体问卷整合。核心在于理解受访者，并通过精心的设计尽可能减少误差、降低受访者负担，从而收集到高质量的数据。感谢大家。

079：课程导论 🎯

在本节课中，我们将学习抽样方法的基本概念及其在社会科学研究中的应用。我们将探讨抽样如何作为一种研究工具，并概述本课程将涵盖的核心主题。

抽样是我们以多种方式进行的活动。我们在这里讨论的抽样活动范围是有限的，但需要承认抽样可以有许多不同的应用。

我们在日常生活中也会进行抽样，甚至没有意识到自己在这样做。例如，我们都会抽样品尝食物，或者体验娱乐活动。我们的身体也是抽样机器，例如视觉，我们不断对周围环境进行快速抽样。

在科学中，抽样同样普遍。例如，医生使用患者样本来推断所有人的疾病风险因素。物理学家使用环境样本来推断整个宇宙的规律。化学家在实验室中使用化学样品。在社会科学中，心理学家使用样本（有时是本科生）来推断不同年龄段人群的行为模式。

我们之所以这样做，是因为我们无法观察全部，只能观察一部分，这构成了基于抽样的操作。

然而，在科学甚至日常生活中，我们思考这些问题时，通常假设我们用来研究特定现象的环境是均匀的。例如，我们愿意假设疾病风险因素以相同方式影响每个人，即使我们只在特定时间、特定地点、特定环境中观察到了这些因素。我们常常愿意据此推断在其他时间、其他地点会发生什么。

很多时候，这种结论是完全合理的。但在本课程中，我们将更仔细地审视样本告诉我们的信息，而不是依赖关于“均匀混合”的假设。对于物理学家来说，假设环境混合均匀可能是安全的。但在社会和健康科学等领域，假设均匀性或随机混合可能会产生误导，认为一个样本与另一个样本在推断总体时同样有效。

在本课程中，我们将研究如何处理我们所处的非均匀、非混合世界。我们不会依赖关于人群、环境等分布情况的假设。相反，我们将研究抽样方法，这些方法通过随机过程进行选择，从而在样本中“强制”实现混合，而不是在总体中。这样，我们就能避免对总体做出或强或弱的假设，并避免因假设错误而产生的偏差。

因此，本幻灯片上出现了骰子图案。我们将与样本“玩骰子”——不是像爱因斯坦曾推测的那样与宇宙玩骰子，而是与样本以及我们如何构建样本玩骰子。

我们将通过几个步骤来探讨这个问题。本课程包含六个单元。

在第一单元，我们将讨论研究设计，以及抽样如何与调查一起作为研究工具协同工作。我们不会涵盖所有研究设计类型，而是重点关注调查、调查抽样以及与之相关的数据收集操作。

在本课程中，我们主要讨论在调查背景下的抽样思想。虽然课程名称涉及对人员、记录和网络的抽样，但记录通常是关于人员的记录，网络也是人群组，因此我们讨论的核心主要是对人类进行抽样。

接下来，在第二单元，我们将讨论抽样技术，即研究人员用于选择样本的过程。

本课程将考虑三种基本工具（并非全部）。第二单元介绍第一种：随机选择。通常仅使用随机选择的抽样被称为简单随机抽样。本单元将探讨如果我们在选择过程中只使用随机化会发生什么。

第三和第四单元介绍另外两个因素，并引出一系列与每个因素相关的样本选择技术。

其中一种技术或方法涉及将总体元素分组，然后选择组而不是单个单位。这样做是为了降低成本，这被称为整群抽样。

我们处理的第二种技术也涉及分组，但这里是将总体样本分成不同的组或层。这种所谓的分层用于控制我们工作的效率和有效性。分层实际上可以让我们以几乎与简单随机抽样相同的成本获得更好的质量，因此它成为一种几乎会自动使用的技术。

无论我们是先分组再选择（如分层抽样），还是选择组（如整群抽样），我们都将讨论在使用随机化时如何操作。

在第五单元，我们将讨论一种有时被人们首先介绍的技术，它是一种非常简单的抽样方法，即系统选择或计数法（例如，每隔K个选择一个）。这种方法存在一些需要注意的陷阱，我们将详细讲解，以便您能更熟练地应用该技术。我们将强调这些陷阱何时重要、如何补救，以及何时可能不适合使用该技术。

然后，我们将在第六单元总结本课程，处理一些扩展内容，使对记录和网络的抽样更容易进行。我们将简要讨论如何处理设计的复杂性（相对于简单随机抽样的简单性），以及在使用整群和分层时，设计复杂性对我们得出的结论和数据质量的影响。

在讲解过程中，我会在幻灯片显示中使用一些额外的侧边栏来组织内容。例如，我会在幻灯片左上角使用一个方框来提示我们正在讨论的是单元还是讲座。每个单元包含多个讲座，在开始讲座前，我会提醒我们当前所处的单元和讲座背景，并高亮显示当前讲座和主题，以帮助跟踪进度。

关于格式的介绍就到这里。在开始研究设计的讨论之前，我想再说几点。

我们将开启第一单元，讨论“抽样作为一种研究工具”，并在第一讲中深入探讨研究设计与抽样的背景和情境。

我希望通过本课程的学习，您能体会到我们所讨论的这些针对人员、记录和网络的调查抽样技术，如何应用于其他领域，特别是当我们理解了它们如何应用于这些特定的研究对象时。

在开始之前，最后还有两点说明。您可能会发现，在讲座中我表现出一些热情。作为一名统计学家和数学家，我很难做到这一点，但我对这些内容充满热情，因为我喜欢它。我从事这个领域很长时间，发现这是一个非常强大的研究工具，并且看到我的同事们用这些研究设计方法做出了惊人的成果。

我发现这是一套非常强大的方法，尽管它们在结构上并非完美无缺，在哲学层面也存在一些根本性的缺陷。但在表面上，在理论上，我们拥有的是一套不需要我们事先对所做之事做出假设的方法。这为我们开始思考如何进行抽样提供了一个非常好的起点。

因此，当考虑为一个特定的研究问题设计样本时，我会回归到将要讨论的基本原则。我将把这些基本原则当作可以在实践中存在一样来讨论。在实际操作中，我们经常不得不偏离这些方法。但如果你要偏离，你最好知道你偏离的是什么。这就是本课程的重点：我们提供一个基线和基础。一旦我们理解了这个基础，我们就可以做出一些偏离，并做出实际的决策，这可能意味着我们能否开展一项研究。

我认为这些是基础性问题，对于随机化尤其如此。出于教学目的，我的一些陈述可能会被夸大。例如，我会说随机化使我们能够在不做假设的情况下得出结论。从技术上讲，这是正确的，但在实践中并非如此，因为我们最终不得不偏离真正的随机选择。

当我们处理样本中的缺陷时，例如样本单位未能回应，我们无法获得其数据。在这些情况下，我们实际上开始做出一些假设，以帮助我们在数据收集后、选择后处理这些缺陷。这有时被称为频率学派方法。我不会深入讨论这一点。其他人可能更喜欢基于模型的方法，但在这里我将坚持频率学派方法，因为这是该领域的标准做法。这并不是说其他方法是错误的或低劣的，只是说这是我们在这里强调的重点。让我们先理解这种方法，然后再尝试处理更有原则性的方法。

好的，我准备好了。如果您也准备好了，让我们进入第一讲，看看研究设计中发生了什么，以及调查样本如何融入研究设计的背景中。

谢谢。

本节课总结：在本节课中，我们一起学习了抽样方法的基本概念及其广泛的应用场景。我们明确了本课程将专注于社会科学背景下，使用随机化方法来应对非均匀总体进行抽样的核心原则。课程将分为六个单元，系统介绍研究设计、随机选择、整群抽样、分层抽样、系统抽样以及对记录和网络抽样的扩展。我们强调了理解这些基础方法的重要性，为后续在实际研究中进行合理偏离和决策打下坚实的基础。

080：研究设计与抽样（上）📊

概述

在本节课中，我们将学习研究设计的基本概念，特别是实验和准实验，并探讨抽样作为一种研究工具如何融入其中。我们将通过两个经典案例——脊髓灰质炎疫苗试验和吸烟与健康关系研究——来理解随机化在研究设计中的核心作用及其对结论可靠性的影响。

研究设计与实验

上一节我们介绍了课程的整体框架，本节中我们来看看研究设计的一般概念。当人们谈论研究时，通常会想到实验。实验涉及对某种新现象进行科学探索，并将其与现有或未有的情况进行比较。

我们倾向于将实验想象在实验室中进行，科学家安静地进行观察研究，仔细记录发现，并在向公众公布前与其他科学家分享。然而，这种模式适用于研究自然现象，但涉及人的现象时，我们需要更精细的考量。

实验是对主要现象的理想化操控。我们试图检验某个现象，并将其与其他事物进行对比。因此，这里存在一个比较过程。我们关注一个主要变量，并使用另一个事物作为背景进行比较。

但在背景中，存在一些干扰变量，它们可能影响我们比较处理A与标准处理B（或处理B）的能力。这些干扰变量可能导致我们错误地认为存在效应，或者掩盖实际存在的效应。

为了处理这些干扰变量，实验设计中会使用随机化。受试者被随机分配接受处理A或处理B，这种分配由随机机制决定，而非研究者的主观选择，从而保证了客观性。

案例一：脊髓灰质炎疫苗试验

现在，让我们考虑一个经典案例，事实上，这是第一个大规模的人体随机对照试验——1954年的索尔克脊髓灰质炎疫苗现场试验。

脊髓灰质炎是一种病毒性传染病，通过粪口途径传播。在二战后，公众对此病非常关注。乔纳斯·索尔克博士开发了首批被认为有效的疫苗，但无人确定疫苗在普通人群中是否安全有效。临床研究规模很小，因此他们认为需要进行大规模现场试验。

由于该疾病发病率很低，研究必须规模巨大。提出的研究方案是：一组儿童接种疫苗，另一组不接种，然后比较两组儿童的脊髓灰质炎发病率。

最初提出的设计是：一、三年级儿童接种疫苗，二、四年级儿童不接种。但这个设计受到广泛批评，因为所有人（包括家长和医生）都知道谁接种了疫苗。未接种疫苗的儿童可能会受到更多关注，他们观察到的发病率可能与背景率不同，从而可能缩小疫苗组与非疫苗组的差距，无法充分证明疫苗的有效性。

此外，即使一、二、三年级学生来自同一学校，也不能保证接种和未接种儿童的平均背景（如免疫史、病毒暴露史）相同。可能存在其他因素干扰比较。

因此，提出了第二个同时进行的研究方案。除了上述非随机研究外，再招募另一批一、二、三年级儿童（通过学校和社区自愿参与）。所有儿童都接受注射，但随机选择一半儿童接种疫苗，另一半接种安慰剂（盐水溶液）。除了研究调查者，无人知晓谁接种了疫苗。所有儿童都被跟踪观察。

这项研究规模巨大，涉及超过180万儿童。其中，随机化研究部分涉及近50万儿童。这为随机化的价值提供了绝佳证据，因为我们现在可以比较随机化与非随机化两种研究设计，看看结论有何不同。

这是一个双盲随机实验。家长和医生知道孩子接受了注射，但不知道是疫苗还是安慰剂。他们对疾病迹象保持警惕，这对接种和未接种组是相同的。这使得可以评估两组之间发病率的差异，即疫苗的有效性。

研究跟踪一年后，随机化试验的结果是决定性的：疫苗安全有效，接种儿童中的脊髓灰质炎发病率不到未接种儿童的一半。公共卫生行动几乎立即展开。次年，美国各地儿童开始大规模接种。

而非随机化研究虽然也显示了差异，但差异要小得多，研究者更不愿意据此得出疫苗有效的结论。因此，随机化使得能够更快地对突发的公共卫生状况采取行动。

案例二：吸烟与健康关系研究

在许多情况下，对人体受试者进行随机化已经足够困难。我选择了一个涉及可能导致瘫痪或死亡的疾病的 poignant 案例，对比非常鲜明。但在其他情况下，由于实际困难，我们甚至不会考虑随机化。

让我们考虑另一个经典研究。这项研究由两位英国医生——多尔和希尔——进行，他们研究了吸烟与各种死因之间的关系。

他们对英国约6万名医生进行了一项非随机化研究。他们利用现成的注册名单，向所有医生发送问卷，询问烟草使用情况（包括香烟、鼻烟、咀嚼烟草、烟斗、雪茄等）。他们排除了少数女医生（那是一个不同的时代），但总体上人数很少。

有4万名医生回复了问卷（回复率约三分之二）。然后，他们通过英国的死亡登记系统跟踪这些医生数年，检查每一份死亡记录，找出4万名受访者中去世的人，并记录死因。

这里没有随机化，因为他们只是通过问卷观察谁吸烟、谁不吸烟，并没有分配人们吸烟或不吸烟。医生们是自愿选择是否吸烟的。不可能将他们随机分配到吸烟组和非吸烟组（处理组和对照组）。

尽管如此，多尔和希尔在短短几年内就确定，吸烟者的肺癌和心血管疾病发病率要高得多。差异的规模非常大。但没有人认为他们的研究是决定性的。

它受到了与脊髓灰质炎案例中相同问题的质疑：如何知道吸烟者和非吸烟者在其他方面（例如遗传因素）没有差异？是否可能存在另一个因素，既使吸烟者倾向于吸烟，又导致肺癌？这是当时提出的论点之一。

因此，关于此存在争议，大规模的公共卫生行动长期缺失。事实上，这项研究在20世纪50年代进行，直到60年代中期，美国卫生局局长才基于这项研究和其他非随机试验，宣布吸烟与肺癌之间存在联系。

由于缺乏随机化，他们无法得出明确的因果结论。随机化在科学家心中是一个非常强大的工具。多尔和希尔所做的这类研究被认为是准实验，而非真正的实验。它基于对人们当前暴露情况的观察，以及随后的死亡结果。

本节总结

本节课中，我们一起学习了研究设计的性质，通过两个案例了解了随机化在其中的关键作用。在脊髓灰质炎疫苗试验中，随机化使得能够迅速得出可靠结论并采取行动；而在吸烟研究中，缺乏随机化则延缓了因果关系的确认。随机化作为一种客观的统计工具，对于确立处理组与对照组之间的差异至关重要。

接下来，我们将暂停关于研究设计的讨论。在下一节中，我们将继续第一讲，探讨随机化如何以不同的方式应用于调查抽样，以及它在抽样过程的不同方面所起的作用。

081：研究设计与抽样（下）📊

概述

在本节课中，我们将继续探讨研究设计与抽样，重点介绍第三种研究设计——抽样调查。我们将了解抽样调查的起源、特点，以及它与实验、准实验设计的核心区别。同时，我们将引入研究设计的“三R原则”，并解释随机化在抽样调查中的独特作用。

抽样调查：第三种研究设计

上一节我们讨论了实验和准实验设计。本节中，我们来看看第三种常见的研究设计：抽样调查。

实验设计被认为是非观测性的，因为虽然研究者也在观察，但研究对象是否接受某种处理（如治疗）是由随机化等客观系统决定的。准实验设计中，分组则完全基于历史或对个体自然状态的观测（例如吸烟者与非吸烟者）。

在抽样调查中，人们如何被分配到不同的比较组同样是观测性的。然而，随机化在这里出现在一个不同的环节，我们需要理解这一点，以把握研究设计的全貌。

抽样调查的起源与目的

抽样调查起源于19世纪的西欧、北欧和西北欧地区。其最初的设计目的是描述总体。事实上，一些统计学家喜欢将调查分为两类：

描述性调查：旨在描述一个总体的情况，获取特定时间点的总体“快照”。
分析性调查：旨在进行比较、检验假设。

这种区分在实践中几乎无关紧要，因为很少有调查是纯粹描述性而不做任何分析的，反之亦然。调查的关键特征不在于此，而在于其观测性——我们并非将事物置于人为环境，而是在人们的日常生活中观察其自然发生的情况。

案例：土耳其人口健康调查

观测性研究可以针对全国样本进行。这里以土耳其的一项调查为例。

土耳其进行了一项全国代表性调查，以收集代表其人口结构和特征的数据，考察出生、死亡、生育率、家庭变迁和健康状况等。这就是土耳其人口与健康调查。

从科学角度看，使用此类调查数据进行研究，我们能做的最好解释是描述土耳其人口的健康和生育状况，并分析变量间的相关性。但我们无法建立因果机制。

例如，我们可以发现营养状况与某些健康结果之间存在强关联，这种关联可能强到让我们确信需要关注并制定新政策。但调查中并没有将人们随机分配到“营养良好”或“营养不良”的组别，这些是自然发生的复杂过程，我们只是观测了已有的分组及其结果。

然而，随机化在这些调查中依然存在，它体现在抽样环节。

代表性抽样与趋势比较

土耳其的人口与健康调查每五年进行一次，旨在衡量这些特征的趋势变化。只有每次收集的数据都能代表总体，趋势比较才有意义。

如果样本是随意或偶然组装的，当我们比较1995、2000、2005等年份的数据时，就无法确定观察到的差异是源于总体真实变化，还是源于抽样方式的不同。因此，我们需要一个能在每个时间点提供总体“快照”的样本。

土耳其2014年的最新调查覆盖了约7700万人口，涉及12,000户家庭和近10,000名15-49岁的女性。这是一个大规模的调查。

调查中的随机化：抽样机制

那么他们如何选择样本呢？以下是核心步骤：

随机选择：样本选择的关键是随机性。没有主观选择，也不是基于方便或偶然。这是一个精心设计的随机过程。
控制变量：在选择过程中，仔细控制了地理分布和年龄分布等因素。
概率可知：我们可以追踪每个个体被选入样本的概率，就像在随机化实验中我们知道谁被分配了疫苗一样。我们也知道哪些个体没有被选入样本（非样本个案）。
观测数据：然后对选中的家庭和个人进行观测。这里没有对处理组进行随机化（例如，随机分配女性使用某种避孕措施）。这只是观测她们实际做了什么。
现实环境：数据是在人们生活的真实家庭环境中，于特定时间点收集的。
代表总体：由于抽样程序，样本能够代表土耳其的总体，不仅是所有家庭，也包括15-49岁女性这个子群体。

总结来说：调查中没有实验操纵。随机化被应用于抽样机制，用于将总体分为两组：入选样本的组和未入选样本的组。入选样本的组相对于未入选的组非常小，这与实验设计（通常两组人数相近）不同。但调查仍然使用了随机化，目的不同：旨在建立一个能代表总体的组，使其平均特征与总体相同。

这种方法避免了因主观选择特定地点或特定特征个体而导致的样本偏差，通过概率选择实现了客观性。

研究设计的“三R原则”

回顾我们讨论过的脊髓灰质炎疫苗实验（实验设计）、吸烟与肺癌研究（准实验设计）以及土耳其生育健康调查（抽样调查），我们可以总结出一些共同原则。社会学家莱斯利·基什将其提炼为研究设计的 “三R原则”。

第一个R：现实性
研究设计需要植根于现实环境。实验设计可能面临不现实的问题（如人工实验室环境）。准实验和抽样调查则直接观察样本对象的真实情况，没有实验室或诊所的干扰，更能反映实际发生的情况。

第二个R：随机化
我们一直在讨论使用随机化。实验使用随机化来确保组间均衡，使比较结果只反映实验条件带来的差异。准实验缺乏随机化，因此结论更具试探性。抽样调查在这一点上有所区分：在考察子群差异时，它像准实验一样使用观测值；但在保证样本与总体无差异方面，它使用了随机化。

第三个R：代表性
随机化本身并不能保证代表性。实验很少尝试使其研究的群体具有代表性，他们通常使用方便、可用的个体。准实验可能稍好一些。而抽样调查将其在研究设计中的地位，建立在通过随机化获得一个能代表总体的样本这一基础之上，尽管实现代表性仅靠随机化还不够。

总结

本节课中，我们一起学习了：

抽样调查作为一种观测性研究设计，其核心是描述总体和分析变量关联，而非建立因果关系。
通过土耳其人口健康调查的案例，了解了全国代表性调查的目的和实施过程。
明确了随机化在调查中应用于抽样环节，旨在获得一个能代表总体的样本，这与实验设计中随机化用于分配处理有本质区别。
掌握了研究设计的 “三R原则”：现实性、随机化和代表性，并理解了不同研究设计在这三个原则上的侧重点。

理解了这些基础后，在下一课（第2课）中，我们将深入探讨“调查”与“抽样”如何相互关联，以及我们将要学习的各类调查的具体含义。

082：调查与抽样 📊

在本节课中，我们将要学习调查研究的整体框架，并重点理解抽样在这一过程中的核心作用。我们将看到，一个严谨的调查设计如何从问题定义开始，经过测量、抽样，最终到数据收集与分析。

概述：调查研究的四步框架

上一节我们介绍了科学研究中获取测量对象的基本概念。本节中，我们来看看在调查研究的特定背景下，如何更正式地组织这一过程。

我们使用一个包含四个步骤的框架来描述调查过程。这个框架是调查过程的简化表示，无论是正式还是非正式的研究，我们在思考时都需要考虑所有这些步骤。

第一步：明确问题与总体 🎯

这个过程始于对总体和问题的明确界定。

通常，问题先行。进行研究、资助研究或设计研究的人，在准备开始时，通常对主题有清晰的想法。然而，有时没有得到充分重视的是对总体的界定。总体是指你感兴趣的全部研究对象集合。

许多调查甚至没有很好地思考这一点，它常常是隐含的、默认的，没有被明确说明。它没有指定总体所在的范围，也没有说明单位是什么（是人还是事件）。在制定研究计划时，可能需要对总体施加一些限制。

以下是界定总体时需要考虑的关键点：

我们并非对美国的所有人都感兴趣，只对那些有资格投票（年满18岁及以上）的人感兴趣。
我们可能只对女性感兴趣，因为这是一组只与女性相关的问题。

这些方面需要像明确问题一样仔细思考，但有时没有得到同样细致的关注。

第二步：设计与实施测量 📏

调查最引人注目的部分在于我们要测量什么。但这通常始于一个非常一般的构念——我们想要测量的一个总体概念。

例如，我们想测量一个群体的压力水平。但我们没有“压力计”，我们只能通过间接指标来测量，比如血压、眼跳频率、咖啡消耗量、睡眠小时数等。这些测量指标就是我们实际要使用的。

在测量过程中，我们需要设计或使用某种工具。有时这很简单，是直接观察（如用尺子和秤测量身高体重）。其他时候则复杂得多，因为我们无法进行直接观察（如态度、观点），这时我们需要设计像问卷这样的工具，通过访谈过程来获取观测数据。

即使设计好了工具，我们还需要规定程序。例如，确保秤放在坚硬、无地毯的水平表面上；规定在一天中的特定时间、特定温度下测量。我们必须考虑应用测量工具的过程。

最后，如果我们要进行测量，可能需要雇佣工作人员来实施。这可能不是简单的在线自填式问卷。我们需要培训工作人员来执行这一过程。

第三步：进行抽样以获取代表性样本 🎲

以上是整个过程的描述，但我们跳过了关键的一环——代表性，而这正是本课程的重点。代表性这一侧就是我们正在处理的样本。

在抽样过程中，我们必须考虑如何进行样本选择。这有点像规定程序：我们将使用什么抽样技术以及如何应用它。这在某种程度上取决于了解抽样框。

事实上，我们研究的许多抽样技术都是为了处理特定的抽样框问题而推导出来的。让我来定义这个术语：抽样框是我们用来选择样本的材料集合。它可以是一个简单的列表，比如总体中所有人的名单。

这个列表可能有点过时。例如，我们从人事部门获得了一个组织的员工名单，但它没有完全更新，没有包括最新的招聘人员，也可能有几个人已经去世，不再符合条件。在我们进行研究时，这个名单与实际总体之间可能存在差异。

这一点非常重要。它假设我们有一种方法，可以获取一个列表，然后从中抽取样本。这与另一种方案形成对比，即我们只是说“我只需要招募受试者，不在乎从哪里获得他们”。在人类研究的背景下，以那种方式招募样本有时是危险的，我们最终可能得到一个相当特殊的群体。我们讨论的抽样操作是：有一个列表，我们从列表中抽样，然后追踪这个样本。

然后我们选择样本，接着去挑选将要参与数据收集的特定个体。我们不只是让现场工作人员去做，而是告诉他们需要遵循的精确步骤和需要做的具体事情，以便在代表性方面执行数据收集。

第四步：收集、处理与分析数据 📊

当我们把测量、工具、数据收集实施方式、工作人员及其培训都安排妥当后，我们就进入最后一个环节：收集数据、处理数据、分析数据。

许多人认为这是调查的核心，从许多方面看也确实如此。但为了获得可靠、有效的数据，以便对总体得出确切的结论，前一步——测量——是极其重要的。

总结与展望

以上就是我们在这里要研究的内容。我们讨论了抽样过程以及应该如何进行。我们将坚持使用更正式的机制来做这件事。这并不是说我们不应该做其他类型的抽样，我也会设计那些，但我想先介绍更正式的机制，因为当我们理解了这些，就能更容易地评估在不遵循它们时所做的工作。这是一个非常有价值的视角。

我把这更多地看作一种策略：让我们把它弄清楚，真正理解如何以正式的方式进行抽样，然后我们可以基于便利性、成本或其他现象，从这个基础上进行变通。

这就是调查过程的构成以及抽样如何融入其中。我们已经讨论了调查、调查抽样以及它们如何融入研究。现在，我们看到了抽样如何融入调查。接下来，让我们转向为什么要抽样，我们将讨论普查并与样本进行对比，这将是我们关于“抽样作为一种研究工具”系列讲座的第三讲。

本节课中我们一起学习了调查研究的四步框架：1) 明确问题与总体，2) 设计与实施测量，3) 进行科学抽样以获取代表性样本，4) 收集与分析数据。我们特别强调了明确界定总体和抽样框的重要性，以及遵循正式抽样机制的价值，这为我们理解和评估各种研究设计奠定了基础。

083：为何抽样（上）📊

在本节课中，我们将探讨抽样的基本概念，特别是为何在研究中需要采用抽样而非普查。我们将从普查与抽样的对比开始，逐步介绍抽样的优势、不同类型以及背后的核心思想，为后续学习具体的抽样方法打下基础。

普查与抽样 📋

上一节我们介绍了调查研究的背景，本节中我们来看看数据收集的两种基本方式：普查和抽样。

普查是指对目标总体进行完全枚举。当总体规模庞大时，进行普查的成本极高且非常耗时。例如，世界上几乎所有国家都试图进行人口普查，但通常每五年或十年才进行一次，因为这是一项极其昂贵的工程，并且只能收集有限数量的变量。

与普查相比，抽样只涉及从总体中选取一个子集进行研究。我们期望这个样本能成为总体的一个“微型”代表。抽样成本更低、更省时，因此可以更频繁地进行，以填补普查在时间、覆盖人群和测量变量方面的空白。

抽样的优势与误差 🎯

既然我们无法进行普查以获得“完美”数据，抽样就会引入误差。我们关心的是这个误差有多大，以及我们能对此做些什么。

实际上，抽样有时能获得比普查更准确的结果。这是因为我们可以将资源集中用于样本中有限的研究对象，为每个对象获取更高质量的信息。而在普查中，资源必须分散到海量个体中。

然而，使用样本意味着我们的结果可能出错。下图所示的“靶心图”有时被称为总调查误差视角，它帮助我们理解抽样可能带来的四种结果。

我们需要认识到，当我们进行抽样时，并不声称得到了完全准确的结果，主要是因为我们知道使用的是样本而非整个总体。

样本的获取方式 🔍

样本可以通过不同的方式获取，主要分为直接招募和基于列表选择。

直接招募更像是征集志愿者参与研究。研究者寻找愿意参与的人，不存在基于列表进行抽样选择的问题。这种方式常见于一些非正式或便捷的研究中。

基于列表的选择则更正式，常用于政府和学术调查。其过程如下：

拥有一份总体中所有元素的列表（抽样框）。
从该列表中选择我们想要的样本单元。
只对选中的样本组进行招募和数据收集。

这种方法引入了“选择”这一环节，通常由研究者或统计学家主导，并且常常会使用随机化技术。然而，其后果是，即使我们完成了选择，在招募阶段也可能遇到无应答的情况，这带来了新的挑战。

概率抽样与非概率抽样 🎲

根据选择过程是否基于随机原则，抽样可分为概率抽样和非概率抽样。

非概率抽样不依赖于随机选择。在社会科学研究中，非随机选择实际上是常态。以下是几种常见的非概率抽样方式：

专家判断抽样：依靠专家来确定谁进入样本。
配额抽样：访员根据预设的配额（如性别、年龄）来寻找符合条件的受访者。
替换抽样：当原定样本单元无法接触时，允许访员用另一个单元替换。

此外，还有在线固定样本组和河流样本等现代的非概率抽样方式，它们广泛应用于政治民意调查等领域，但通常超出了本课程的范围。

概率抽样则依赖于随机化选择，就像抽奖一样。这是我们本课程将重点讨论的内容。概率抽样包含一系列技术：

简单随机抽样：每个单元有已知且相等的被抽中概率。
分层抽样：先将总体分组（分层），然后在各层内独立抽样，以提高效率。
整群抽样：随机选择群组，然后调查群内的所有单元，旨在降低成本。
系统抽样：按某种规则（如每隔k个单元）进行选择，便于操作。
更复杂的概率设计：用于处理现实世界中特定的抽样问题。

总结与预告 📝

本节课我们一起学习了为何要进行抽样。我们比较了普查与抽样的优劣，认识到抽样因其成本效益和灵活性而成为更常用的方法。我们介绍了获取样本的两种途径（直接招募与基于列表选择），并重点区分了概率抽样和非概率抽样的核心概念。

下一节，我们将继续探讨“为何抽样”这个话题，并更深入地审视随机化的必要性及其在保证样本代表性方面的关键作用。

084：为何抽样（下）📊

在本节课中，我们将继续探讨抽样这一研究工具。上一节我们介绍了普查与抽样的区别、随机化概率的使用以及相关的抽样技术。本节中，我们将深入探讨抽样框、复杂抽样设计带来的挑战，以及如何应对数据缺失和覆盖不全等问题。

抽样框：样本选择的基础

抽样框是一个通用术语，指代用于选择样本的材料集合。通常，我们将其视为一个集中存放的简单单一列表。我们之前讨论的许多技术，如简单随机抽样、分层抽样和系统抽样，都可以直接应用于这类列表。

然而，也存在我们没有简单列表抽样框的情况。这时，我们需要构建更复杂的抽样框。例如，我们可能没有现成的全国人口名单。为了降低构建完整名单的巨大成本，我们可以分阶段、逐步地组装样本，利用现有材料而非创造新材料。

多阶段抽样与区域抽样框

区域抽样框是一个典型例子。要抽取一个国家的人员样本，我们不必先费力创建包含所有人的名单。相反，我们可以：

首先，汇编他们居住的地理区域名单（例如，全国所有的区或普查小区）。
然后，从这些区域中抽取一个初级样本。
接着，在被选中的区域内，进一步划分成更小的子单元（如街区），并从中再次抽样。
之后，前往被选中的子单元，列出住房单元并从中抽样。
最后，前往被选中的住房单元，列出其中的人员。

这种“区域-区域-住房单元-人员”的多阶段抽样，涉及多个不同列表的组装，其中一些可能是首次为本次调查而创建。

抽样框与总体的匹配问题

即使是在简单的列表情况下，抽样框也可能存在问题：总体中的某些元素可能不在列表中，而列表中的某些条目可能不属于目标总体。对于区域抽样框，匹配问题同样存在。因此，研究者需要设法解决这些问题，确保总体与抽样框（即我们用于选择样本的列表或材料集合）之间达到最佳匹配。

针对这些抽样框，我们应用之前提到的技术。但具体到操作层面，有推荐的标准执行方式。例如，进行简单随机抽样就有几种不同的方法。我们将抽样技术视为一套需要遵循的特定步骤和形式。

抽样技术的应用场景

抽样技术主要应用于两类场景：

列表抽样框：技术直接应用于现成的名单。
整群/多阶段抽样：技术应用于区域样本或多阶段抽样设计，其具体操作有所不同。

样本的缺陷与补救措施

无论采用何种技术和抽样框，我们的样本都可能存在缺陷。例如：

无应答：我们精心从列表中抽取了样本，但在邀请参与研究时，部分个体因不愿提供数据、无法联系到、语言障碍等原因，完全没有提供数据，或对部分问题（如收入）拒绝回答，导致数据缺失。
覆盖不全：这是抽样框的一个问题，即抽样框未能覆盖总体中的所有元素。这可能是由于抽样框本身的缺陷，也可能是我们的主动选择。例如，我们可能决定不覆盖一个国家中偏远地区的人口，因为前往那里的成本极高，而该地区人口规模较小。排除他们可以节省大量资金，且对最终结论影响甚微。

为了弥补这些缺陷（无应答和覆盖不全），并试图修复抽样链中的断裂，我们会采用一些补偿措施。加权就是这样一种技术。它最初用于补偿不等概率抽样，但有时也用于调整无应答和覆盖不全的影响。另一种技术是事后分层，即试图通过外部控制信息，使样本在结构上更接近总体特征。

复杂设计及其影响

此外，我们还必须考虑复杂设计。现在我们可以看到，设计中可能包含多种因素：随机化、整群、分层、各种估计程序以及加权。所有这些都偏离了简单的随机抽样。简单随机抽样只是一个起点，我们引入这些偏离是为了节省成本、提高设计效率或纠正各种缺陷。

当我们引入这些不仅仅是随机化的特性时，我们需要计算的估计值就变得越来越复杂。一个简单的均值或比例的计算会因设计的复杂性而变得困难。这种复杂性也反映在我们用于评估结果质量的度量上，例如标准误或置信区间。为涉及整群、分层、加权等因素的复杂设计计算这些度量，是一项复杂的任务。我们需要能够正确处理这些复杂设计特征的专用软件，而不仅仅是标准统计软件。

因此，我们有必要简要讨论一下方差估计。在最后一个单元，我们将简要介绍评估数据质量的不同方法，考虑这种复杂性，并提及一些可用的软件。这些软件使得分析过程对用户透明——只要你提供了正确的设计信息，软件就会处理所有这些复杂计算。

设计、估计与软件的协同

我们将看到，随着抽样技术的改变，我们计算估计值的方式也会改变。例如，从简单随机样本转向整群样本时，估计方法就需要调整。我们必须保持抽样设计与估计程序紧密相连，而软件将帮助我们做到这一点。这种复杂性是伴随随机化而来的。既然我们有很多随机选择样本的方式，我们就需要记录样本是如何被选中的，以便使我们的估计尽可能可靠。

总结与下节预告

本节课中，我们一起学习了抽样框的概念及其类型（特别是复杂的多阶段区域抽样框），认识了样本可能存在的无应答和覆盖不全等缺陷及其补救措施（如加权），并理解了复杂抽样设计如何增加估计的难度以及对专用分析软件的需求。

在下一讲（第4讲）中，我们将转向五个核心问题中的第二个：我们为何要进行随机化以及应该如何操作？我们将探讨随机数的特性及其在抽样选择中的应用，重点关注使用随机选择的意义和后果，而不过多纠结于具体技术细节。期待下次再见。

085：随机化原理与方法 🎲

在本节课中，我们将学习抽样调查中的一个核心环节：随机化。我们将探讨什么是随机数、如何利用随机数进行抽样，以及随机化背后的原理和具体操作方法。

在上一节中，我们讨论了抽样的基本概念及其必要性。本节中，我们将具体探讨如何抽取样本，特别是如何使用随机选择，以及为什么这样做至关重要。使用随机选择听起来很科学、很公平，这确实是概率抽样（我们赋予这种方法的标签）的优点。然而，与招募受试者等非正式抽样方法相比，这是一种更复杂的程序，需要付出一定成本。那么，概率抽样能带给我们什么？它的价值有多大？这正是本节课以及接下来几节课要探讨的内容。之后，我们还将通过实际应用来继续讨论。

我们将从以下四个部分展开讨论：

随机数的概念
如何利用随机数进行选择
一个特殊问题：“是否放回”
一个从列表中抽取人员的示例

随机数的概念

随机数有多种形式。以下是10个随机数：

这些随机数都在0到1之间，带有小数点，有五位数字（也可以有更多位）。它们是由一个系统生成的，该系统能产生0到1之间的随机数。在这个范围内，任何数字被生成的概率都是相等的。无论用五位、一位还是三位数字来表示都可以，核心思想是：该范围内的所有数字被选中的机会均等。

这10个随机数来自所谓的均匀分布，即所有数字被选中的概率是均匀、相等的。你无法将它们与非随机数区分开来。理论上，第一个数字0.49018有可能连续出现10次，但这并不影响其随机性。随机数没有限制，我们只知道0到1之间的每个数字被选中的机会均等。

以下是另一组随机数，它们是单位数字：

7 1 6 0 3 4 8 2 0 9
5 1 4 9 3 7 2 8 6 0
2 3 1 5 9 7 4 0 8 6
0 9 8 7 6 5 4 3 2 1
3 4 5 6 7 8 9 0 1 2

这些是数字0到9。在我们看到的50个位置中，每个位置都有10种可能性（0-9）。这只是一个由50个数字组成的字符串，0到9这10个数字都出现在其中，但在任何一个特定位置，出现的数字都可能是0到9中的任何一个。

它们同样来自均匀分布，但思考方式不同：在任何一个给定位置，数字0到9出现的可能性均等。这里有50个不同的随机数字，每个数字出现的概率相同。

现在我们有了一串随机数字序列。之前我们也有序列，但这个更具体——一个包含50个数字的序列。我们也可以将这些数字以不同方式分组，例如，将这50个数字每五个分成一组，不一定非要像上面那样排成一串。分组只是为了阅读更方便。随机数字通常就是以这种方式生成的：先生成长长的字符串，然后像这样分块写出，以便于查看数字。

非均匀分布的随机数

我们也可以使用非均匀分布的随机数字。例如，以下数字来自一个生成系统，该系统生成的数字更倾向于靠近中间值（0到1之间的中间区域），越靠近中间的数字出现频率越高。

0.45
0.52
0.61
0.49
0.55

这听起来可能有偏差，为什么会有人这样做呢？这是因为这种分布（正态分布）在自然界中经常出现。我们希望通过使用符合这种正态分布的随机数，来模拟现实世界中发生的情况。顺便说一下，这里用大写字母“N”表示的“Normal”，不应理解为“一切本该如此”的“正常”，而应视为一种“标准”分布，因为它在统计实践中出现得非常频繁，被广泛使用。它更多源于法语中的“normal”（标准），而非英语中表示“普通、中间”的“normal”。

随机数表及其应用

这是一张包含4500个随机数字的表，它们被每五个分成一组。虽然很难看清，但你可以理解这个思路：那些五个一组的块，共有50行和90列，每行有18个五位数块，总计4500个数字。

为什么有人会这样展示呢？有时，根据问题或应用的需要，我们可能需要五位数、两位数或一位数。这样分组使我们更容易查看、阅读和使用它们，例如用一些数字组作为两位数，另一些作为三位数。随机数表出现在教科书中。我的导师莱斯利·基什（Leslie Kish）在他的教科书中就有这样一张表。

这里还有另一种表现形式，来自我最喜欢的一本书——兰德公司（Rand Corporation）出版的《一百万随机数字》。这本书包含从0到9重复出现的一百万个数字序列，它们被每五个分成一组，印在500页上，每页有50行、50列，共2500个数字。他们这样做有一个严肃的目的：展示他们的随机数生成器能够生成看起来随机的数字。由于他们并不完全确信其生成器是真正随机的，所以称之为“伪随机数生成器”。他们希望通过生成一百万次并统计每个数字（0，1，2...）出现的次数，来证明该生成器非常接近一个随机过程。实际上，这本书中唯一的文本就是第一页，简短说明了0、1、2等数字各出现了多少次，其余部分全是数字。

利用随机数进行抽样选择

我们可以使用这些随机数来进行选择。这种方法可用于从抽样框中抽取样本。还记得我们在前几节课中提到的抽样框吗？这里有一个抽样框示例，它只是一个列表。这是一个教职员工列表（前25条记录），我们隐去了姓名，但有序号、8位ID号、所属学院/部门、性别、职称和薪资信息。我们将从这个列表中抽取样本（该列表实际包含370条记录，来自密歇根大学的教职员工）。

我们的想法是从随机数表中获取一些随机数，并与教职员工的ID号进行匹配。例如，我们可以尝试使用8位ID号，但这会有点复杂，因为我们需要8位数，并且会生成大量根本无法匹配的8位数，效率很低。更好的方法是使用序号。序号允许我们生成从001到370的三位数。我们从那些表中选择的任何三位数随机数字序列，只要与列表中的序号匹配，就是一个被选中的样本。

以下是另一张随机数表（来自与我之前展示的不同的来源），数字被每五个分成一组排列。我们需要开始从这些数字中选择，以匹配我们的列表。

我们从哪里开始？从哪里开始并不重要。你可以闭上眼睛用铅笔点在页面上（一些教科书确实这么写过），但这并非必要。从左上角开始，或者任何你喜欢的地方开始都可以，但要做一些系统化的事情，以便你能跟踪自己的操作过程。

让我来演示一下。例如，我们看第一个数字（一个三位数）。前三位数字是第一个五位数块的前三位：579。我们尝试将其与列表匹配，但列表序号只到370，没有579。我们将其划掉。下一个数字是341（我只取每五位数块的前三位，忽略后两位）。341在列表中，这成为我们的第一个选择，我将其圈出。继续向下，019是下一个，也在列表中（注意前导零，所以我们需要处理像19、1、2这样的数字，序列中也会包含前导零）。019成为我们的一个选择。接着是253、238……我一次做了很多个选择。请注意，当我在这一列中向下进行，到达页面底部（该列有50行）时，我还没有获得足够的样本量。于是，我回到下一组五位数块（实际上是下一组五位数块的前三位）。这只是我遍历列表的方式。你也可以选择使用第一个五位数块的后两位和下一个五位数块的第一位，这都不重要，只要你能跟踪并记录自己所做的事情即可。

“是否放回”的问题

这里出现了一个问题：在抽取过程中，同一个数字有可能出现不止一次。事实上，在我实际使用的序列中，数字238就出现了两次。那么我们应该如何处理？应该选择它两次吗？这就引出了“是否放回”的问题。

这里有两种选择：保留它或丢弃它。

如果保留它（当它第二次被抽中时仍然算作一次选择），这被称为有放回抽样。
如果丢弃它（使其在后续抽取中不再有资格被选中），这被称为无放回抽样。

有放回意味着一旦我们选中某个元素，会将其放回列表中，使其有资格再次被选中。无放回意味着我们将其从列表中取出，使其没有资格在后续被选中。这对我们将要研究的一些问题会产生影响。

通常更倾向于选择无放回抽样，因为它能带来更好的样本。这里的“更好”并非指样本的外观（有些人可能会这么想），而是指关于我们所获数据质量的统计特性。

示例：从列表中抽样人员

回到我们的样本，这是整个样本（20个被选中的记录）。现在按照被选中的顺序从1到20编号，你可以看到列表的随机性。这是一个随机序列。我们还在其中加入了收入数据（以千美元计）作为示例并进行计算。我们可以看到，这个样本的平均收入是78.6（千美元）。这就是我们得到的结果，也是我们想要的。我们完成了一个从列表中抽取人员并计算结果的示例。

接下来，我们将探讨随机化带来的后果。你可能认为我们已经看到了，但并非如此。我们需要从统计角度理解一些影响，这将是第五课的内容：关于随机化如何影响我们的数据质量，以及我们如何评估这种质量。

总结

在本节课中，我们一起学习了随机化的核心原理与操作方法。我们首先了解了随机数的概念及其不同形式（如均匀分布和正态分布）。接着，我们探讨了如何利用随机数表从抽样框（如人员列表）中系统地抽取样本，并演示了具体的操作步骤。我们还讨论了抽样中“有放回”与“无放回”的区别及其对样本统计性质的影响。最后，通过一个计算样本平均收入的实例，我们看到了随机化抽样的实际应用结果。理解这些基础是评估抽样数据质量、进行科学统计推断的关键前提。

086：随机化实施效果

概述

在本节课中，我们将学习随机抽样的实施效果及其后果。我们将通过一个七步流程，从定义总体开始，到最终构建一个表达不确定性的置信区间，来理解随机抽样如何让我们仅凭一个样本就能评估结果的可靠性。

上一节我们介绍了随机抽样的基本概念和操作。本节中，我们来看看当我们真正执行随机抽样时，会产生哪些后果，以及我们如何量化这些后果带来的不确定性。

第一步：定义总体 👥

抽样过程的第一步是明确定义我们研究的总体。总体是我们感兴趣的所有元素的集合。例如，它可以是某大学的所有教职员工、一段时间内的所有交易记录，或任何其他我们想研究的完整群体。

在图中，这个总体被形象地表示为一个集合，其中的每个点代表一个元素（例如一位教职员工）。

第二步：获取抽样框 📋

在实际操作中，我们几乎不可能获得包含总体中每一个元素的完美名单。因此，我们需要一个抽样框——一个用于抽样的实际列表（例如教职员工名册）。

抽样框通常与总体不完全一致。它可能遗漏了总体中的一些元素（覆盖不足），也可能包含了一些不属于总体的元素（过度覆盖）。图中两个部分重叠的圆圈展示了总体与抽样框之间的关系。

第三步：从抽样框中抽取随机样本 🎲

有了抽样框后，第三步是使用随机方法（如随机数表）从中抽取一个样本。样本是抽样框的一个“微观缩影”。

例如，从一个包含370名教职员工的名单（抽样框）中，我们使用随机数表抽取了20人作为样本。随后，我们访谈了这20人，获得了他们的收入数据，并计算了样本的平均收入。

代码示例（概念性）：

# 假设 faculty_frame 是包含370个教职员工ID的列表
import random
sample = random.sample(faculty_frame, 20)
# 然后调查这20人，计算平均收入 sample_mean

第四步：计算样本估计值 📊

从样本中，我们可以计算出一个估计值，例如样本平均收入。这个值是我们对总体平均收入的最佳猜测。

然而，由于我们只调查了总体的一小部分（20/370），这个样本均值几乎不可能是总体的真实均值。样本估计值与真实值之间存在误差。

第五步：想象所有可能的样本 🌌

这是关键的概念性一步。我们使用的随机抽样方法意味着，如果回到抽样框，从另一个随机起点重新抽取，我们可能会得到一个完全不同的样本，从而得到一个不同的样本均值。

事实上，从370人中抽取20人的所有可能组合数量是巨大的（有数十亿种可能）。对于每一个可能的样本，我们都可以计算出一个均值。这样，我们就得到了一个由所有可能样本均值构成的分布。

这个分布具有一些重要特性：

它有一个范围（最小值和最大值）。
大多数均值会聚集在中间。
在概率抽样下，这个分布会呈现正态分布（钟形曲线）的形状。

第六步：计算标准误 📐

我们不可能真的抽取数十亿个样本来查看这个分布的 spread（离散程度）。但幸运的是，统计理论为我们提供了一个解决方案。

通过一个数学公式，我们可以仅利用一个样本的数据，来估计所有可能样本均值的离散程度。这个估计值称为标准误。

公式：
标准误 (SE) = 样本标准差 / sqrt(样本容量)

标准误是一个重要的度量，它量化了我们基于当前样本进行估计的不确定性。标准误越小，说明不同样本得到的估计值彼此越接近，我们的估计就越精确。

第七步：构建置信区间 🎯

最后，我们利用样本估计值（如均值）和标准误，构建一个置信区间。置信区间提供了一个可能包含总体真实值的范围。

例如，我们可能得到“66到98”这样一个区间，我们的样本均值82位于其中。我们可以这样理解：如果我们用相同方法重复抽样很多次，那么有95%的次数，计算出的区间会包含真实的总体均值。

区间越宽，表示不确定性越大；区间越窄，表示估计越精确。

总结与核心要点

本节课中，我们一起学习了随机抽样的七步统计流程及其核心价值：

定义总体：明确研究对象的全体。
获取抽样框：找到用于抽样的实际列表。
抽取随机样本：使用随机方法从框中选取元素。
计算样本估计值：得到对总体参数的猜测（如均值）。
理解抽样分布：概念上认识所有可能样本结果的全貌。
计算标准误：利用一个样本来量化估计的变异性。
构建置信区间：给出一个包含不确定性信息的估计范围。

这个流程的核心优势在于，随机化的机制允许我们仅从一个样本出发，通过标准误和置信区间来科学地评估结果的质量和不确定性。这使我们能够回答“这个数字有多可靠？”的关键问题，而无需进行代价高昂的全面普查。

下一讲，我们将更深入地探讨如何利用这个框架来评估样本的代表性质量。

087：样本质量评估 📊

在本节课中，我们将学习如何评估一个样本的质量。我们将回顾抽样分布、七步推断过程以及标准误等核心概念，并引入两个衡量数据质量的关键指标：偏差和方差。

上一节我们讨论了随机抽样以及所有可能样本的分布情况。本节中，我们将利用这些知识来评估样本质量。

我们继续沿用第七步推断过程。这个过程始于一个明确的总体，接着是与之匹配的抽样框。第三步，我们从中抽取一个样本。第四步，我们基于这个样本计算一个估计值。第五步，我们想象重复这个过程无数次，这就引出了抽样分布的概念——即所有可能样本的估计值的分布情况。

从抽样分布中，我们可以计算出所有可能样本估计值的离散程度，即标准误。这是第六步。标准误的公式（以样本均值为例）为：
SE = σ / √n
其中，σ 是总体标准差，n 是样本量。在实际操作中，我们通常用样本标准差 s 来估计 σ。

第七步，我们利用标准误构建置信区间，这是一个关于总体参数的不确定性陈述。例如，我们之前得到一个从66到98的区间，这个区间较宽，表明我们的估计不够精确。提高样本量可以缩小标准误，从而获得更窄、更精确的置信区间。

现在，我们来看看如何用两个指标来评估样本质量。以下是两种常见的质量情况示意图：

我们可以将每次抽样想象成一次射击，目标是命中靶心（代表总体真实值）。上图展示了四种不同的结果模式：

高精度，高准度：射击点紧密聚集在靶心周围。
高精度，低准度：射击点紧密聚集，但整体偏离了靶心。
低精度，高准度：射击点分散，但它们的中心平均值接近靶心。
低精度，低准度：射击点分散，且中心平均值偏离靶心。

这引出了衡量样本质量的两个核心维度：

偏差：指所有可能样本估计值的平均值与总体真实值之间的系统性差距。就像射击时瞄准点整体偏离了靶心。在第二张图中，我们用黑色双箭头标出了这个差距。
方差：指样本估计值自身的离散程度，通常用标准误来衡量。标准误越大，就像射击点散布的圆圈直径越大，表示精度越低。在第三张图中，我们突出了这种较大的散布。

理解偏差和方差后，我们来看看如何在实际中评估它们。

关于偏差：在理论上，通过分析抽样分布，我们可以判断一个抽样过程是否存在偏差。例如，我们接下来要讲的简单随机抽样，在理论上被证明是无偏的，这意味着从长期来看，其样本估计值的平均值会等于总体真实值。

关于方差：我们可以直接从一个具体的样本数据中计算出标准误，从而得知所有可能样本的离散程度（即“圆圈”的直径）。这是一个非常强大的特性：我们无需真的抽取无数个样本，仅凭一个正确抽取的概率样本，就能评估整个抽样过程的精度。高精度意味着标准误小，低精度意味着标准误大。

因此，样本质量完全取决于所使用的随机抽样过程。我们可能得到无偏但不够精确的结果，也可能得到有偏但很精确的结果。我们将使用偏差和方差这两个维度来综合评估我们结果的质量。

本节课中我们一起学习了评估样本质量的核心框架。我们回顾了从抽样到推断的七步过程，并重点介绍了两个关键质量指标：

偏差：衡量估计值的系统性误差。
方差（通过标准误衡量）：衡量估计值的随机波动性，即精度。

重要的是，对于概率抽样（如简单随机抽样），我们可以从一个样本计算出标准误，并利用理论判断其无偏性。这使得我们能够对结果的质量进行量化评估。

对于非概率抽样（如在商场门口方便抽样），我们无法直接计算标准误或确保无偏性。若想使用类似的推断工具，我们必须额外假设该样本“类似于”随机样本，或者对总体分布做出强假设。

在下一讲也是本单元的最后一讲中，我们将回顾人员、记录和网络这三种不同的总体类型，为后续应用这些随机抽样方法提供具体的背景和框架。

088：抽样对象类型 🎯

在本节课中，我们将学习抽样方法如何应用于不同类型的研究对象。我们将探讨对人群、记录和网络进行抽样的具体思路和案例，理解抽样单元在不同情境下的含义。

上一节我们介绍了抽样在调查研究中的基础概念和重要性。本节中，我们来看看这些概念如何具体应用于不同的研究对象。

对人群抽样 👥

对人群进行抽样是最常见的形式。抽样单元是明确的个体，例如个人、学生或员工。

以下是密歇根大学教职员工的薪资抽样案例：

总体/抽样框：一份包含370名教职员工的列表。
数据：列表中包含序列号、员工ID、所属学院、性别、职称和薪资等信息。
抽样过程：使用随机数表，从370人中抽取一个容量为20的简单随机样本。
分析与推断：计算样本的平均薪资，并基于抽样分布的概念，利用单个样本的变异性来估计所有可能样本的变异性，从而做出统计推断。

这个案例展示了从明确的人群列表中抽取随机样本并进行分析的完整流程。

对记录抽样 📄

抽样方法同样可以应用于非人群的对象，例如各种记录。此时，抽样单元可能是一笔交易、一份账单或一个事件。

以下是一个信用卡交易记录的假设案例：

总体/抽样框：一系列信用卡交易记录。
数据：每条记录包含日期、时间、交易号、类别、子类别和金额等信息。
抽样动机：我们可能需要对交易进行更详细的分类或编码，而这需要专家意见，耗时耗力。因此，我们只对样本记录进行深入分析，而非处理全部数据。
抽样过程：同样使用随机数字来抽取交易记录。
分析目标：计算平均交易金额、特定类别交易的比例，或进行回归分析。

这个例子说明，当对每个单元进行深度测量成本过高时，抽样是处理大量记录的有效方法。

对网络抽样 🌐

抽样方法还可以应用于更复杂的结构，例如社会网络。网络抽样通常从个体开始，然后扩展到与其相连的其他个体。

以下是一个兄弟姐妹网络的抽样案例：

初始抽样：首先随机抽取一个人作为样本。
网络数据收集：访问该样本个体，询问两类问题：
- 关于本人：您有多少位在世的兄弟姐妹？（用于确定网络大小）
- 关于网络成员：您本人以及您的兄弟姐妹中，是否有被医生诊断患有糖尿病？（用于收集网络属性数据）
抽样复杂性：在这种设计中，一个个体（例如，一个有三名兄弟姐妹的人）有多种途径被选入样本：既可能本人被直接抽中，也可能通过其任何一位兄弟姐妹被间接“带出”。这被称为多重性抽样。
估计挑战：在进行总体推断时，必须考虑这种不等的入样概率，这比简单随机抽样更为复杂。其基础仍然是概率论，但需要更复杂的计算。

网络抽样展示了如何将抽样方法从单个个体扩展到相互关联的群体。

本节课中我们一起学习了抽样在三种不同对象类型上的应用：人群、记录和网络。我们看到，尽管抽样单元（人、交易、网络节点）不同，但随机抽样的核心逻辑是相通的。同时，网络抽样也引入了多重性等更复杂的概念，为后续学习更高级的抽样技术做了铺垫。

在接下来的第二单元，我们将深入探讨一种仅依赖随机化的基础抽样方法——简单随机抽样，并详细研究其性质与后果。

089：简单随机抽样(SRS) 📊

在本节课中，我们将要学习抽样方法中的基础技术——简单随机抽样。我们将了解其核心定义、多种实现方式以及在实际应用中的优缺点。

概述

简单随机抽样是一种基础的抽样技术，其核心在于仅通过随机化过程从总体中选取样本。我们将探讨其定义、三种不同的实施步骤，并分析其在实际调查中的应用场景。

简单随机抽样的定义与核心概念

上一节我们介绍了抽样方法的整体框架，本节中我们来看看最基础的随机抽样技术。

简单随机抽样是指：从包含 N 个元素的总体中，抽取一个大小为 n 的样本。它必须满足以下两个核心条件：

等概率选择方法：总体中的每一个元素被选入样本的概率都相同。
组合等概率性：所有可能的、由 n 个不同元素组成的样本组合，被抽中的概率也相同。

这可以用数学公式表达为：每个元素被选中的概率为 π_i = n / N。

虽然“简单随机抽样”这个名称很常用，但其背后的统计原理（尤其是在有限总体中处理元素不重复的问题）并不像听起来那么简单。

实施简单随机抽样的三种方法

尽管定义严谨，但在实际操作中，我们可以通过多种流程来获得一个简单随机样本。以下是三种常见的方法。

方法一：直接抽取法（拒绝重复）

这是我们之前单元演示过的方法。以下是具体步骤：

准备一个包含所有 N 个总体元素的抽样框，并为每个元素分配一个唯一的序号（如001到370）。
使用随机数表或生成器，产生一个在序号范围内的随机数。
将随机数对应到抽样框中的元素，将其选入样本。
抽取下一个随机数，并检查其对应的元素是否已被选中。
- 如果是（即重复），则拒绝该次选择，重新生成随机数。
- 如果否，则将该元素加入样本。
重复步骤2-4，直到抽满 n 个不同的元素。

此方法确保了样本无重复，且每个元素及每个样本组合被选中的概率相等。

方法二：随机排序法

这种方法通过为每个元素赋予随机“标签”来简化选择过程。

为抽样框中的每一个元素（共 N 个）都生成一个独立的随机数（例如，使用0到1之间的均匀分布随机数）。
根据这个随机数，将整个抽样框的列表重新排序。
排序后，直接选取列表中的前 n 个元素作为样本。

由于列表顺序是完全随机的，选取前n个、后n个或每隔固定间隔选取，在概率上都是等价的。这种方法也自然地避免了重复，并满足简单随机抽样的所有条件。

在软件中，可以使用类似 runif(1, seed=0718) 的函数为每个观测生成随机数，然后进行排序操作。

方法三：筛选法（从有放回抽样中筛选）

这种方法首先生成允许重复的样本，然后进行过滤。

进行有放回的随机抽样：从 N 个元素中随机抽取 n 次，每次抽取后都将元素“放回”总体，因此同一元素可能被多次抽中。
检查得到的样本中是否存在重复元素。
如果样本中包含重复元素，则丢弃整个样本。
重复步骤1-3，直到获得一个由 n 个不同元素组成的样本为止。

此方法从更广泛的“无限制随机样本”中，筛选出符合“无重复”限制的样本，其结果同样是简单随机样本。但该方法效率较低，因为可能需要多次尝试才能获得一个无重复样本。

简单随机抽样的性质与实用性

无论采用上述哪种实施方法，最终得到的样本都符合简单随机抽样的定义，并且具有一个关键性质：可能的样本数量极其庞大。

从总体 N 中抽取 n 个不同元素，所有可能的样本组合数是一个组合数，计算公式为：
C(N, n) = N! / (n! * (N-n)!)
例如，从370人中抽取20人，可能的样本组合是一个天文数字。我们的抽样过程，就是从这海量的可能性中随机实现其中一个。

在实践应用中，简单随机抽样有其地位，但也存在局限：

优点：原理简单，完全依赖随机化，无需其他辅助信息。对于抽样新手或简单问题，它常被作为首选方法。
缺点：对于大型或复杂的调查，它通常不是最高效或最实用的方法。专业调查人员更常使用分层抽样、整群抽样等技术，这些方法能在相同成本下提供精度更高的估计，或更便于实施。

因此，简单随机抽样更像是一个基础构件。在实践中，它更常作为其他复杂抽样设计的一部分被使用，例如在分层后的层内进行简单随机抽样，或对初级抽样单元进行简单随机抽样。

总结

本节课中我们一起学习了简单随机抽样。
我们首先明确了其核心定义：等概率且所有等容量样本组合等概率。
接着，我们探讨了实现它的三种具体方法：直接抽取拒绝重复、随机排序后选取以及从有放回样本中筛选。
我们了解到，尽管其原理直观，但可能产生的样本组合数量是巨大的。
最后，我们讨论了它的实用性，认识到它虽然是重要的统计基础，但在专业调查中常与其他更高效的方法结合使用。

理解简单随机抽样为我们评估样本质量奠定了基础。接下来，我们将要思考：在如此多的可能样本中，我们手中的这一个样本的估计值究竟有多可靠？这引出了对抽样分布和估计精度的探讨，我们将在下一讲中深入分析。

090：随机抽样简史 📜

在本节课中，我们将从一个不同的视角，回顾一些我们已经接触过的概念。我们将再次审视从特定规模的总体中抽取样本，以及存在多种可能样本的问题，并探讨其背后的含义。我们将聚焦于简单随机抽样的语境，并简要回顾其思想发展史，为我们后续的学习建立一个框架。

在未来的课程中，当我们深入学习其他抽样设计时，会回想起这部分内容。

历史背景：实践与理论

我们的历史回顾将涉及实践与理论之间的差异、我们已使用过的“代表性方法”这一术语、更多关于随机化的内容，以及代表性方法与随机化方法之间的比较。最后，我们将提炼出一些原则。

这些原则可以为我们后续决定如何抽取样本提供一个框架。我们今天所谈论的概率抽样，其构建方式源于实践，而非先有理论发展，再从实践中提取。

从实践到理论的发展

我们所探讨的技术，最初是为了解决实际问题的响应。它们是试图理解总体状况的实践结果。统计理论随后介入，形式化了那些解决实际问题的从业者所做出的隐含假设，有时确认、有时修正、有时则扩展了实践中的做法。

因此，典型的（尽管不是唯一的）发展路径是从实践走向理论。这解释了您已经看到以及我们将要看到的关于这些抽样设计的一些观点。

抽样实践的起源

抽样实践的起源，确实源于我们一直在讨论的数据收集调查框架。我们追溯的历史并不久远。那是一个科学兴起的时代，通过系统研究和我们讨论过的研究设计（如实验和观察）来产生新知识的理念，因其对理解物理世界的贡献而广受推崇。

与此同时，人们对健康和社会问题也抱有极大兴趣。许多早期的社会科学家是 philanthropists（慈善家），他们拥有资金（尤其是在经历了工业革命的西北欧），并希望以科学的方式研究工业革命和人口大规模涌入城市中心所带来的影响，就像物理或化学进行研究那样。因此，他们中的一些人自称其研究为“社会物理学”。

早期研究方法：普查与专题研究

当时，在他们看来，有两种基本的研究方法。

普查：这是我们已经讨论过的方法。研究者心中有一个明确的总体（例如伦敦某个教区的居民或法国的一个村庄），他们会对该总体中的所有单位进行清点和测量。这使他们确信能够从研究结果推断回该总体。
专题研究：另一些人认识到，对于他们感兴趣的许多总体（例如整个国家），无法进行普查。于是他们开始进行所谓的“专题研究”，即研究一个“典型”单位（如一个村庄、城镇或社区），然后推广到整个总体。这种方法至今仍在使用，例如美国的“米德尔敦”研究。

代表性方法的兴起

对于当时的政府统计人员来说，这两种方法都不完全令人满意。在挪威，首席统计学家凯尔（Kiaer）负担不起为每个新问题都进行普查。他开始构建他所认为的国家的“缩影”——抽取一个样本。这个样本不是单一的典型单位，而是一组单位，当它们组合在一起时，能构成挪威的缩影。他在选择这些单位时利用了先验信息，但没有使用随机选择。这就是“代表性方法”的雏形。

他将这个想法带到了国际统计学会，但遭遇了阻力。一些统计学家（如冯·迈尔）认为必须进行普查；法国学派（如勒·普莱）则主张深入的专题研究。这场争论促使他们成立了一个委员会。

代表性方法的局限与随机化的引入

该委员会经过多年讨论后得出结论：普查、代表性方法和专题研究都是研究总体的合适方法。但他们提出一个原则：无论采用哪种方法，都必须确保其“代表”总体。然而，“代表性”在当时并不是一个明确定义的统计术语。

基于“代表性”思想，发展出了一些我们最近讨论过的非概率抽样方法，如立意抽样、专家判断抽样，甚至是平衡抽样（确保样本在某些维度上与总体相似）。

在该报告发布后不久，统计学家鲍利在1906年提出，应将代表性方法与随机化选择结合起来。他当时正与在实验中应用随机化的费希尔合作。他认为，应该像在实验中一样，将随机化应用于确定谁在样本内、谁在样本外。

内曼的贡献与概率抽学的确立

然而，在整个1910年代和1920年代，随机化并未真正流行起来，它似乎只是一个没有特定目的的附加步骤。直到1934年，统计学家内曼发表了一篇论文，系统比较了代表性方法与随机选择方法（即概率抽样）。

在这篇开创性的论文中，他研究了重复抽样的性质。他提出了想象所有可能样本的想法，并考察统计量（估计量）在所有可能样本上的分布，即抽样分布。正是通过这项工作，他引入了置信区间的概念。

内曼最关心的是，在什么条件下，不同的程序（代表性程序或随机选择程序）能产生有效的估计。他定义并对比了两种类型：

概率抽样：可以在不需要对总体特征分布做任何假设的情况下进行，并能产生无偏估计（我们将在下一课详细讨论）。
立意抽样或平衡抽样：必须对总体结构做出很强且通常难以验证的假设。

通过对比，内曼指出，概率抽样因其客观性而更受青睐。这场从19世纪末到20世纪上半叶的辩论，最终确立了现代抽样调查的基础原则。

确立的核心原则

从这场历史辩论中，确立了以下核心原则，这些原则构成了我们当前所讨论内容的基础：

应采用概率抽样：因其客观性，且不依赖于对总体结构的强假设。
应通过分组（如分层）提高代表性：使代表性更加形式化和精确。
应评估估计量的质量：这涉及估计我们讨论过的标准误和置信区间。
应向数据使用者提供完整的推断信息：不仅提供对总体参数的估计（如均值、比例），还应以置信区间或标准误的形式提供关于该估计的不确定性度量。
应提供抽样程序的完整描述：确保读者能够自行评估研究过程。

总结与展望

本节课中，我们一起回顾了抽样方法从早期实践（普查、专题研究）到代表性方法，最终发展到概率抽样和统计推断理论（如置信区间、抽样分布）确立的简史。我们了解了内曼的关键贡献，以及由此确立的现代抽样调查的核心原则。

需要理解的是，与此同时，其他抽样方法也在被使用。但掌握了本节课的内容，您将有能力评估其他抽样方式的优劣。这也是我们在此回顾这段历史的原因。

在下一讲中，我们将看一个具体的例子，并研究其中的抽样主张，然后再继续讨论样本容量的问题。

091：简单随机抽样（SRS）的抽样分布（上）📊

在本节课中，我们将学习简单随机抽样（SRS）的核心概念——抽样分布。我们将探讨其定义、性质，特别是无偏性这一关键特性。理解抽样分布是设计有效抽样方案和计算样本量的基础。

上一节我们介绍了简单随机抽样作为一种客观的抽样方法。本节中，我们来看看其理论核心——抽样分布。

抽样分布的基本框架

抽样分布的概念由奈曼在1934年提出。其基本思想是：对于一个给定的总体和抽样设计（如简单随机抽样），我们可以考虑所有可能被抽出的样本。每个样本都会计算出一个统计量（例如样本均值 y_bar）。所有这些可能样本统计量构成的概率分布，就是抽样分布。

这个框架的关键在于“重复抽样”的想象。虽然在实际研究中我们通常只抽取一个样本，但通过思考所有可能样本的结果，我们可以从理论上评估一次抽样结果的可靠性。这个过程是客观的，因为样本选择完全由随机数决定。

我们关心的是，基于单一样本计算出的统计量（如 y_bar）与总体真实值（如总体均值 Y_bar）的接近程度。由于我们不知道总体真实值，我们需要一个能平均而言得到正确结果，并且能衡量其变异程度的方法。

抽样分布的性质：无偏性

我们首先定义抽样分布的第一个重要性质：无偏性。

在统计学中，无偏性并非指单次估计没有错误，而是指估计量的期望值等于被估计的总体参数。期望值（用符号 E 表示）可以理解为所有可能样本估计值的平均值。

以下是衡量样本均值 y_bar 无偏性的公式：

E(y_bar) = (1 / (N choose n)) * Σ (y_bar_s)

其中：

E(y_bar) 表示样本均值 y_bar 的期望值。
(N choose n) 是从容量为 N 的总体中抽取容量为 n 的简单随机样本的所有可能组合数。
Σ (y_bar_s) 表示对所有可能样本的样本均值 y_bar_s 进行求和。

这个公式计算的是所有可能样本均值的平均值。理论证明，对于简单随机抽样，这个平均值恰好等于总体均值 Y_bar：

E(y_bar) = Y_bar

这意味着，虽然我们某一次抽样得到的样本均值可能高于或低于真实的总体均值，但如果我们能无限次重复抽样并计算这些样本均值的平均值，这个平均值将收敛于总体真值。这就是简单随机抽样对于均值估计的无偏性。该性质同样适用于比例等许多其他统计量。

无偏性是一个极其有价值的性质，它保证了我们的估计方法在中心趋势上是正确的。然而，只知道中心位置还不够，我们还需要了解估计值的波动范围。

本节课我们一起学习了抽样分布的基本概念及其无偏性这一核心性质。我们了解到，简单随机抽样提供的估计量在期望意义上是准确的。在下一讲中，我们将继续探讨抽样分布的另一个关键性质——方差，并学习如何利用它来构建置信区间，从而量化我们估计的不确定性。

092：SRS抽样分布（下）📊

在本节课中，我们将继续学习简单随机抽样（SRS）的抽样分布。上一节我们讨论了样本均值的无偏性，即从长远来看，样本均值会围绕真实的总体均值波动。本节中，我们将深入探讨这种波动的幅度，即抽样分布的离散程度，并学习如何计算标准误和构建置信区间。

抽样方差与标准误

上一节我们介绍了期望的概念，它描述了估计量的中心位置。现在，我们关注其离散程度，即抽样方差。

抽样方差衡量的是所有可能样本的估计值（如样本均值）围绕其期望值（总体均值）的波动大小。其定义公式如下：

Var(Ȳ) = Σ (Ȳ_s - μ)^2 / (所有可能样本的总数)

这个公式计算了每个样本均值与总体均值之差的平方的平均值。然而，这个定义式在实际中无法计算，因为我们不可能获得所有可能的样本。

幸运的是，通过代数推导，我们可以得到一个仅使用总体信息（总体大小 N、总体方差 S² 和样本大小 n）的等价公式：

Var(Ȳ) = (1 - n/N) * (S² / n)

这个公式包含三个关键部分：

总体方差 S²：反映了总体中个体的变异程度。
有限总体校正因子 (1 - n/N)：当从有限总体中不放回抽样时，这个因子会减小方差。当样本量 n 相对于总体大小 N 很小时，它接近 1，影响不大；当 n 接近 N 时，它会显著降低方差。
样本大小 n：这是影响抽样方差的最关键因素。样本量越大，抽样方差越小，估计越精确。

由于方差的单位是原始单位的平方（例如“美元²”），不便于解释，我们通常取其平方根得到标准误：

SE(Ȳ) = √[(1 - n/N) * (S² / n)]

标准误与样本大小的平方根成反比，这解释了为什么增加样本量能提高估计精度，但收益会递减。

从样本估计标准误

上述公式是理论上的，但在实践中，我们不知道总体方差 S²。解决方法是使用样本方差 s² 来估计它。

样本方差 s² 的计算公式与总体方差类似，但仅基于样本数据。一个重要的性质是：样本方差 s² 是总体方差 S² 的无偏估计。这意味着，平均而言，用 s² 来估计 S² 是正确的。

因此，我们可以计算估计的标准误：

est. SE(Ȳ) = √[(1 - n/N) * (s² / n)]

这样，仅凭一个样本的数据，我们就能估计出所有可能样本均值的波动范围。

对于常见的比例估计（例如，支持某项政策的人口比例），方差公式有更简洁的形式。如果令 p̂ 为样本比例，则其方差估计为：

est. Var(p̂) = (1 - n/N) * [p̂(1 - p̂) / (n - 1)]

构建置信区间

知道了估计值（样本均值 Ȳ）和其精度（标准误 SE），我们就可以构建置信区间来表达估计的不确定性。

根据中心极限定理，当样本量足够大时，样本均值 Ȳ 的抽样分布近似服从正态分布。利用这一性质，我们可以构建一个以 Ȳ 为中心、以若干倍标准误为宽度的区间。最常用的是95%置信区间：

95% CI = Ȳ ± Z * SE(Ȳ)

其中，Z 是标准正态分布的分位数。对于95%的置信水平，Z ≈ 1.96（为简便计算，常近似为2）。这个区间的含义是：如果我们重复抽样很多次，每次计算一个这样的区间，那么大约有95%的区间会包含真实的总体均值 μ。

当样本量较小时（例如 n < 100），正态近似可能不够好。此时，我们使用 t 分布 的分位数（记作 t）来代替 Z。t 值取决于自由度（通常是 n-1），并且比对应的 Z 值更大，从而产生更宽的区间，以反映小样本带来的额外不确定性。

以下是构建置信区间的步骤总结：

从样本计算估计值（如均值 Ȳ 或比例 p̂）。
计算估计的标准误 SE。
根据置信水平和样本大小，选择适当的乘数（Z 或 t）。
计算置信区间的上下限：估计值 ± 乘数 × 标准误。

总结与应用

本节课中我们一起学习了简单随机抽样下估计量的离散性度量。

我们首先从定义出发理解了抽样方差，然后导出了其便于计算的公式，并引入了关键的标准误概念。我们了解到，标准误主要受总体变异度和样本大小影响，并通过有限总体校正因子进行微调。

在实践中，我们使用样本方差 s² 来估计未知的总体方差，从而计算估计的标准误。最后，我们利用抽样分布的正态（或 t）近似，构建了置信区间，这是一种量化估计不确定性并做出概率性陈述的强大工具。

所有这些工具——无偏性、方差、标准误、置信区间——为我们解决调查设计中的核心问题奠定了基础：如何确定样本量？ 在下一讲（第2单元第4讲）中，我们将利用本节课的知识，学习如何为简单随机样本计算所需的样本量，以达到预先指定的精度（如一定的置信区间宽度）。

版权说明：本教程内容整理自密歇根大学课程《调查数据收集和分析》（Survey Data Collection and Analytics）第2单元第3讲（SRS抽样分布）的下半部分。课程视频编号 BV1fw4m1e7Zh，对应讲稿第92页。内容已进行翻译、梳理和教学化改编，旨在帮助初学者理解核心概念。所有图示版权归原课程所有。

093：样本量确定 📊

在本节课中，我们将要学习如何为简单随机抽样确定所需的样本量。理解抽样分布的特性后，我们需要反向思考，根据期望的数据质量（如置信区间的宽度或标准误）来规划调查，并计算相应的样本量。这直接关系到调查的预算和可行性。

上一节我们介绍了简单随机抽样的性质，本节中我们来看看如何应用这些知识来规划一次新的抽样调查。

背景与核心问题

在规划一次新的抽样调查时，我们面临的核心问题是：为了达到一个给定的估计量标准误，我们需要多大的样本量？这需要我们从两个关键信息出发进行反向计算。

确定样本量的两个关键要素

以下是确定样本量前必须获取的两项信息：

总体方差 (S²)：我们通常不知道真实的总体方差。因此，需要从历史数据中获取其估计值。这些数据可能来自：
- 过去的普查
- 过去的抽样调查
- 行政记录
  我们将利用这些数据计算方差估计值 S²。已发表的研究成果在此处至关重要，它们为新的调查计划提供了基础数据。

目标精度 (V_d)：我们需要明确期望的估计精度，即可以接受的标准误或抽样方差有多大。这通常由数据后续的决策需求驱动。例如，某些决策需要非常精确的估计，而另一些情况下，可以接受较低的精度。

样本量计算公式与推导过程

回顾简单随机抽样中样本均值的抽样方差公式：
Var(ȳ) = (1 - n/N) * (S²/n)
其中，n 是样本量，N 是总体大小，S² 是总体元素方差。

为了简化初始计算，我们暂时忽略有限总体校正因子 (1 - n/N)。当样本量 n 相对于总体 N 很小时（例如小于1%），这个因子接近1，影响甚微。简化后的公式为：
Var(ȳ) ≈ S²/n

我们的目标是让抽样方差达到一个期望的水平，记为 V_d。因此，可以建立方程：
S² / n = V_d
由此，可以解出初始的必要样本量 n'：
n' = S² / V_d

然而，我们最终需要的是考虑有限总体校正后的真实样本量 n。通过代数转换，可以得到调整公式：
n = n' / (1 + n'/N)
或者另一种常见形式：n = N * n' / (N + n')

计算过程总结为两步：

计算初始样本量：n' = S² / V_d
根据总体大小进行调整：n = n' / (1 + n'/N)

实例演示：总统支持率调查

假设我们要进行一项新的调查，估计美国民众对总统工作的支持率（“强烈赞成”或“有些赞成”的比例）。

步骤一：获取总体方差估计值 (S²)
根据历史调查数据，假设前任总统在类似时期的支持率约为60%（即 p = 0.6）。对于比例估计，其元素方差可近似为：
S² = p * (1 - p) = 0.6 * 0.4 = 0.24
我们将使用 S² = 0.24 作为计划依据。

步骤二：确定目标精度 (V_d)
假设我们希望最终估计值的95%置信区间为 [58%, 62%]，即点估计为60%，半宽（误差范围）为2%。

首先，将百分比转换为比例：半宽 B = 0.02。
对于95%置信区间，Z值约为 1.96（简化为 2 以便计算）。
标准误 SE 与半宽的关系为：B = Z * SE。因此，期望的标准误 SE_d = B / Z = 0.02 / 2 = 0.01。
目标抽样方差 V_d 是标准误的平方：V_d = (SE_d)² = (0.01)² = 0.0001。

步骤三：计算样本量

计算初始样本量 n'：
n' = S² / V_d = 0.24 / 0.0001 = 2400
进行有限总体校正。假设美国合格选民总数 N ≈ 250,000,000。
n = n' / (1 + n'/N) = 2400 / (1 + 2400/250,000,000) ≈ 2400 / (1 + 0.0000096) ≈ 2399.97
调整后的样本量约为2400。由于总体 N 极大，校正因子几乎为1，因此调整前后样本量几乎没有变化。

在这个例子中，我们最终确定的样本量约为 2400。

总结与预告

本节课中我们一起学习了为简单随机抽样确定样本量的完整流程。核心在于反向工作：首先根据历史数据估计总体方差 S²，然后根据决策需求确定目标精度 V_d（通常源于期望的置信区间宽度），接着利用公式 n' = S² / V_d 计算初始样本量，最后通过 n = n' / (1 + n'/N) 根据总体大小进行调整。

我们注意到，当总体规模非常大时，有限总体校正的影响微乎其微，样本量主要取决于方差和精度要求。这引出了两个更深层的问题：是否有更直接的方法从置信区间宽度计算样本量？以及样本量与总体规模的关系究竟如何？我们将在接下来的两讲中分别探讨“误差范围”的直接应用，以及样本量与总体规模关系的深入分析。

094：误差范围 📊

概述

在本节课中，我们将学习“误差范围”这一概念。误差范围是调查和民意测验报告中常见的术语，它描述了样本估计值的不确定性。我们将了解误差范围是什么，它与置信区间的关系，以及如何利用它来计算所需的样本量。这本质上是我们之前样本量计算讨论的延伸，但使用了更贴近实际应用的术语。

从置信区间到误差范围

上一节我们介绍了通过设定期望的精度（如标准误）来计算样本量。本节中，我们来看看如何将这种精度要求转化为更直观的“误差范围”。

置信区间为我们提供了一个估计值的可能范围。对于一个比例（例如支持率），其95%置信区间通常表示为：
下限 = p̂ - Z * SE(p̂)
上限 = p̂ + Z * SE(p̂)
其中，p̂ 是样本比例，SE(p̂) 是标准误，Z 是标准正态分布的分位数（对于95%置信区间，Z ≈ 1.96，常近似为2）。

误差范围（通常记为 E）就是这个区间宽度的一半，即从点估计值 p̂ 到区间任一边界的距离。因此：
E = Z * SE(p̂)

在新闻报道中，你常会看到这样的表述：“支持率为60%，误差范围为±2%”。这里的±2%就是误差范围 E，它帮助公众理解抽样带来的不确定性。

利用误差范围计算样本量

既然误差范围源于标准误，我们就可以反向操作，通过设定期望的误差范围来计算所需的样本量。

计算过程分为两步：

将期望的误差范围 E 转化为期望的标准误：SE_desired = E / Z。
将期望的标准误平方，得到期望的抽样方差 V_desired，然后代入我们熟悉的样本量公式。

对于简单随机抽样，估计一个比例所需的初始样本量 n' 公式为：
n' = S² / V_desired
其中，S² 是总体方差。对于比例问题，S² 可以用 p(1-p) 来估计，这里的 p 是我们对总体比例的预先估计（例如，根据以往数据或假设为0.5以获得最保守的样本量）。

将 V_desired = (E / Z)² 代入，我们得到基于误差范围的样本量公式：
n' = S² / (E / Z)² = Z² * S² / E²

如果总体规模 N 不是无穷大，我们还需要进行有限总体校正，得到最终样本量 n：
n = n' / (1 + n' / N)

有时，你可能会看到将校正一步完成的公式：
n = (Z² * S²) / (E² + (Z² * S² / N))

以下是不同形式的样本量计算公式，它们本质上是等价的：

基于标准误：n' = S² / V_desired
基于误差范围（分步）：n' = S² / (E/Z)²
基于误差范围（合并）：n' = Z² * S² / E²
针对比例的具体形式：n' = Z² * p(1-p) / E²

请注意，这些公式可能因教科书或应用领域的不同而略有差异，但核心逻辑是一致的。

计算示例

假设我们要调查一项支持率，我们预先估计比例 p 约为0.6，希望误差范围 E 为0.02（即±2%），置信水平为95%（Z=1.96），总体规模 N 为2500人。

首先，计算总体方差的估计值 S²：
S² = p(1-p) = 0.6 * 0.4 = 0.24

接着，计算初始样本量 n'：
n' = Z² * S² / E² = (1.96)² * 0.24 / (0.02)² ≈ 2304.96

最后，进行有限总体校正：
n = n' / (1 + n' / N) = 2304.96 / (1 + 2304.96 / 2500) ≈ 2304.96 / 1.922 ≈ 1199.7

因此，我们大约需要抽取 1200 个样本，才能在95%的置信水平下，使对0.6左右比例的估计误差范围在±0.02以内。

总结

本节课中，我们一起学习了误差范围的概念及其应用。我们了解到：

误差范围是置信区间宽度的一半，直观地表示了抽样估计的不确定性。
它可以通过公式 E = Z * SE(p̂) 与标准误联系起来。
在调查设计阶段，我们可以通过设定期望的误差范围 E、置信水平（决定 Z 值）和对总体比例的预先估计 p，来反推所需的样本量。
核心计算公式为 n' = Z² * p(1-p) / E²，并根据总体大小决定是否需要进行有限总体校正。

掌握利用误差范围计算样本量的方法，能帮助你在设计调查时，更清晰地向他人说明精度目标，并做出更合理的资源规划。下一讲，我们将深入探讨总体规模在样本量计算中的具体影响。

095：样本量与总体规模 📊

在本节课中，我们将探讨简单随机抽样中一个关键问题：样本量与总体规模之间的关系。我们将通过回顾样本量计算公式，并分析不同规模国家（从中国到图瓦卢）的案例，来理解总体规模如何影响（或不影响）所需的样本量。

回顾样本量计算公式

上一节我们介绍了基于边际误差计算样本量的方法。本节中，我们来看看其核心公式，并重点关注其中与总体规模相关的部分。

基于边际误差（Margin of Error）计算简单随机样本所需样本量（n）的公式如下：

n = (S²) / [ (MOE / Z)² + (S² / N) ]

其中：

S² 是总体方差的估计值。对于比例问题，S² = p(1-p)。
MOE 是期望的边际误差（置信区间宽度的一半）。
Z 是特定置信水平对应的Z值（例如，95%置信度时，Z ≈ 1.96）。
N 是总体规模。

公式分母中的 (S² / N) 项被称为有限总体校正因子。正是这一项将总体规模（N）引入了计算。

案例研究：多国领导人民意调查

为了探究总体规模的影响，我们假设在多个国家进行一项相同的调查：评估民众对现任领导人的支持率。我们希望所有国家的调查结果都具有相同的精度，即95%的置信区间，边际误差为±2%（0.02）。

由于我们无法预知各国的确切支持率（p），为了保守估计（即确保样本量足够），我们采用可能的最大方差，即当 p = 0.5 时，S² = 0.5 * 0.5 = 0.25。

以下是针对不同规模国家的计算示例：

1. 中国 🇨🇳

总体规模（N）：约8亿选民。
计算过程：将 S²=0.25, MOE=0.02, Z=1.96, N=800,000,000 代入公式。
所需样本量（n）：计算结果约为 2500。若忽略有限总体校正（即视N为无穷大），结果也是2500。

2. 美国 🇺🇸

总体规模（N）：约2.5亿选民。
所需样本量（n）：计算结果仍为 2500。即使总体规模仅为中国的三分之一，所需样本量并未增加。

3. 爱尔兰 🇮🇪

总体规模（N）：约320万选民。
所需样本量（n）：计算结果约为 2499。与2500相比，仅“节省”了1个样本单位，实际执行中仍会采用2500。

4. 塞舌尔 🇸🇨

总体规模（N）：约8万选民。
所需样本量（n）：计算结果降至 2425。此时有限总体校正开始产生明显影响，节省了约75个样本。

5. 图瓦卢 🇹🇻

总体规模（N）：约8000选民。
所需样本量（n）：计算结果显著降至 1900。对于这种极小的总体，有限总体校正效应非常显著。

核心结论与常见误解

基于以上计算，我们可以总结出两个重要结论：

样本量不随总体规模增大而增加。对于中国、美国、印度等大规模总体，要达到相同的精度，所需的样本量基本是相同的（本例中约为2500）。
仅当总体规模非常小时，样本量才会显著减少。如图瓦卢的例子所示，当总体本身很小时，我们确实可以抽取更少的样本。

这纠正了一个常见的误解：

误解：样本量应根据总体规模的一定比例（例如10%）来确定。即总体越大，样本也必须同比例增大。
事实：决定样本量大小的主要因素是期望的精度（边际误差）和总体的异质性（方差），而非总体规模本身。在绝大多数涉及大规模总体的调查中，总体规模对样本量的影响微乎其微。

因此，当有人质疑“为何仅用2500个样本就能代表美国2.5亿选民”时，其根源在于误认为样本量应由总体规模决定。实际上，只要抽样是随机的，基于概率统计理论，一个精心计算的、相对较小的样本足以在给定的误差范围内推断庞大总体的特征。

总结与过渡

本节课中，我们一起学习了样本量与总体规模的真实关系。关键在于理解，有限总体校正因子仅在总体规模较小时才对样本量计算产生实质性影响；对于大多数大规模社会调查，总体规模并非决定样本量的主要因素。

您无需死记硬背这些公式，但应理解其背后的原理：样本量设计是为了控制估计的精度，而非机械地与总体规模挂钩。

从下一单元开始，我们将进入课程的第3部分——“节省成本”，并首先学习整群抽样。这是一种通过改变抽样设计来显著降低调查成本的方法，敬请期待。

096：简单复合抽样：整群抽样(上) 🏘️

在本节课中，我们将学习一种旨在降低数据收集成本的抽样技术——整群抽样。我们将从一个简单的例子入手，理解其基本概念、操作步骤以及它与简单随机抽样的区别。

概述

抽样本质上是一项实践活动。在本单元中，我们将介绍并讨论通常被称为“整群抽样”的技术。选择这种技术的主要动机是为了降低数据收集的成本。我们将通过一个具体的例子，逐步了解整群抽样的原理和操作。

从简单随机抽样到复合抽样

上一节我们介绍了简单随机抽样，它只使用随机化进行选择。本节中，我们将引入一种在随机化之外的新技术，这使得抽样变得“复合”。我们将选择“群”，并讨论什么是群、如何选择群，以及这对我们的结果有何影响。

一个示例总体

为了理解整群抽样，我们首先需要定义一个总体。想象一个社区的鸟瞰图，其中包含许多住房单元（用绿色小方块表示）。这些住房单元被街道划分为不同的街区。

总共有 18个街区。
每个街区恰好包含 8个住房单元。
因此，总体中的住房单元总数 N = 18 × 8 = 144。

我们的目标是抽取一个住房单元样本，以了解其某些特征（例如，居住面积、房间数量或家庭收入）。总体均值（Ȳ）和元素方差（S²）是我们感兴趣的关键参数。

简单随机抽样的挑战

假设我们采用简单随机抽样，直接从144个地址列表中随机抽取24个住房单元（抽样比为1/6）。样本点会分散在各个街区。

然而，这种方法面临两个主要的成本挑战：

列表成本：在许多情况下，我们可能没有现成的、完整的住房单元地址列表。创建这样一个列表（例如，派人逐街记录所有地址）成本高昂。
访问成本：由于样本单元地理分布分散，访员需要前往许多不同的街区进行数据收集，交通成本很高。

整群抽样的解决方案

整群抽样提供了一种降低上述成本的实用方法。其核心思想是利用现成的“群”列表（例如，人口普查中使用的街区列表），而不是元素列表。

以下是整群抽样的操作步骤：

获取群列表：我们有一个包含所有18个街区的列表（这通常可以从人口普查等行政来源获得）。
抽取群样本：我们从18个街区中，随机抽取3个街区（例如，街区1、9、16）。这相当于对“群”进行了简单随机抽样。
处理群内元素：对于每个被抽中的街区，我们列出其内部所有的住房单元（本例中为全部8个），并对它们进行调查。这相当于在群内进行了一次普查。

通过这种方式，我们将列表工作从18个街区减少到仅3个街区，同时将实地访问的地点也从可能遍布全城集中到了仅3个街区，从而显著降低了成本。

整群抽样的影响

从视觉上看，整群样本（集中在少数几个街区）与简单随机样本（分散在各处）截然不同。这引发了一个问题：如果恰好抽中了一个全是“豪宅”的街区，样本均值会不会有偏差？

答案是：不会产生偏差。因为每个街区被抽中的概率是相同的，包括那个“豪宅”街区。偏差与某个特定样本的结果无关，而是与抽样方法是否系统性地高估或低估总体参数有关。

然而，整群抽样确实会影响估计的方差（即抽样误差）。当我们抽中一个特殊街区时，该样本的均值可能会显著偏离总体均值。由于我们只抽取了少数几个群，样本之间的差异可能会变大。

简单随机抽样均值的抽样方差公式为：
Var(ȳ_srs) = (1 - f) * S² / n
其中 f = n/N 是抽样比。

而在整群抽样（本例为“群内全部调查”）中，均值的抽样方差公式变为：
Var(ȳ_cluster) = (1 - f_a) * S_A² / a
其中：

a 是抽取的群数量（本例为3）。
f_a = a/A 是群的抽样比（3/18）。
S_A² 是群间方差，衡量的是各街区平均特征（如街区平均居住面积）的变异程度，而非单个住房单元特征的变异。

关键转变：我们的随机性来自于对群的选择（仅3次随机事件），而不是对元素的选择（24次）。因此，计算标准误时，分母是群的数量 a，方差度量也变成了群水平的方差 S_A²。

本节总结

本节课我们一起学习了整群抽样的基本概念。我们了解到，当缺乏元素列表或实地访问成本过高时，整群抽样是一种降低成本的实用方法。其操作分为两步：首先随机抽取“群”，然后处理被抽中群内的所有元素。虽然这种方法不会引入偏差，但会改变估计量的方差性质，方差大小取决于群与群之间的差异程度。在下一节中，我们将更深入地探讨整群抽样对方差的具体影响。

097：简单复合抽样：整群抽样（下）📊

概述

在本节课中，我们将继续探讨整群抽样。我们将通过一个关于学校免疫接种调查的具体例子，学习如何计算整群抽样下的估计值、抽样方差和置信区间，并理解它与简单随机抽样的核心区别。

从街区到教室：一个新的例子

上一节我们以街区为例介绍了整群抽样的基本概念。本节中，我们来看一个涉及学校的例子，以更好地理解计算过程。

假设我们为一个拥有1000间小学低年级教室的学区工作。管理者希望了解这些教室中儿童完全免疫接种的比例。他们面临一个实际问题：他们有一份1000间教室的名单，但没有所有学生的名单。逐一建立学生名单成本高昂。

因此，他们决定采用整群抽样：

总体：1000间教室（每间有24名学生），总计24，000名学生。
抽样设计：从1000间教室中，随机抽取10间（a = 10）。
数据收集：调查这10间样本教室中的所有学生（共 10 * 24 = 240 名学生）。

以下是调查后，按免疫接种比例从低到高排列的10间样本教室的数据：

教室编号	免疫儿童数	儿童总数	免疫比例 (p_α)
1	9	24	0.375
2	11	24	0.458
3	13	24	0.542
4	15	24	0.625
5	16	24	0.667
6	17	24	0.708
7	18	24	0.750
8	19	24	0.792
9	20	24	0.833
10	21	24	0.875

计算总体比例估计值

我们的目标不是了解单个教室的情况，而是估计整个学区的免疫接种比例。在整群抽样中，总体比例的估计值计算如下：

计算样本中免疫儿童总数：9 + 11 + 13 + ... + 21 = 160
计算样本中儿童总数：10 * 24 = 240
计算样本比例（即总体比例估计值 p）：p = 160 / 240 = 0.667（或66.7%）

这个估计过程是无偏的。如果我们重复抽取所有可能的10间教室组合并计算其均值，这些均值的平均值将等于真实的总体比例。

计算抽样方差与标准误

关键在于评估这个估计值的精确度。在整群抽样中，随机化发生在“教室”层面，而非“学生”层面。因此，我们的“样本量”是教室数量（a = 10），而不是学生数量（n = 240）。

抽样方差的计算基于教室层面的比例（p_α）的变异性。以下是计算步骤：

1. 计算教室比例间的方差（S_a^2）
这是10个教室比例 p_α 围绕其均值（即总体估计值 p = 0.667）的离散程度。

公式为：
S_a^2 = (1 / (a - 1)) * Σ (p_α - p)^2

代入数据：
S_a^2 = (1 / 9) * [(0.375-0.667)^2 + (0.458-0.667)^2 + ... + (0.875-0.667)^2] = 0.02816

2. 计算估计值的抽样方差（v(p)）
公式结合了有限总体校正因子和教室层面的方差。

公式为：
v(p) = (1 - f) * (S_a^2 / a)
其中，f = a / A = 10 / 1000 = 0.01 是抽样比。

代入计算：
v(p) = (1 - 0.01) * (0.02816 / 10) = 0.0027878

3. 计算标准误（se(p)）
标准误是抽样方差的平方根，它给出了估计值的可能误差范围。

se(p) = sqrt(v(p)) = sqrt(0.0027878) ≈ 0.0528

因此，我们对总体免疫比例66.7%的估计，其标准误约为5.28个百分点。

构建置信区间：引入t分布

有了估计值和标准误，我们可以构建置信区间来表述估计的不确定性。在简单随机抽样中，我们通常使用正态分布的Z值（如1.96对应95%置信水平）。

然而，在整群抽样中，我们的“随机事件”数量是教室数（a=10），这个数量较小。当样本量（此处指初级抽样单元数量）较小时，用于估计方差 S_a^2 的数据点（a-1=9个平方差）有限，导致其本身不稳定。此时，正态分布的假设不再理想。

我们需要使用t分布，它考虑了这种因自由度（df = a - 1）较小而增加的额外变异性。t值比对应的Z值更大，从而产生更宽的置信区间，这更符合小样本的实际情况。

对于95%的置信区间和9个自由度，t值约为2.262。

计算95%置信区间：

下限：p - t * se(p) = 0.667 - 2.262 * 0.0528 ≈ 0.548
上限：p + t * se(p) = 0.667 + 2.262 * 0.0528 ≈ 0.786

因此，基于这个整群抽样，我们有95%的信心认为该学区儿童的完全免疫接种比例在54.8%到78.6%之间。

与简单随机抽样的对比回顾

让我们回顾一下核心区别。如果对24，000名学生进行简单随机抽样（SRS），抽取240名学生：

估计值：计算方式相同（免疫学生数/总学生数），也是无偏的。
标准误计算基础：基于学生层面的0/1数据的变异性，样本量 n=240。
公式（比例估计）：se_{srs}(p) = sqrt( [ (1-f) * p*(1-p) ] / (n-1) )
置信区间：通常使用Z值（如1.96），因为学生样本量 n 较大。

而在整群抽样中：

标准误计算基础：基于教室层面比例 p_α 的变异性，样本量是教室数 a=10。
公式：se_{cluster}(p) = sqrt( [ (1-f) * S_a^2 ] / a )
置信区间：必须使用基于自由度 df=a-1 的t值。

整群抽样通常更省钱（只需列出并访问10间教室），但代价是，由于同一教室内的学生情况可能相似（群内同质性），导致 S_a^2 可能较大，且有效样本量（随机事件数）变小，从而使标准误增大，估计精度下降。

总结

本节课我们一起学习了简单整群抽样（群规模相等）下的数据分析流程：

计算总体估计值：直接汇总所有样本群内的观测结果。
计算抽样方差与标准误：关键是将抽样过程视为对“群”的简单随机抽样，并基于群统计量（如群比例）的方差 S_a^2 进行计算。
构建置信区间：由于随机事件数（群的数量）通常较少，必须使用t分布而非正态分布来确定乘数，以得到更可靠的区间估计。

整群抽样是一种在节约成本和名单获取难度与估计精度之间进行权衡的重要方法。在下一讲中，我们将对整群抽样和简单随机抽样的效率进行直接比较。

098：设计效应与组内相关（上）📊

概述

在本节课中，我们将继续探讨整群抽样。我们将学习如何量化整群抽样对估计精度的影响，并引入两个核心概念：设计效应和组内相关。我们会将整群抽样与相同样本量的简单随机抽样进行比较，以理解其效率差异。

从比较开始

上一节我们介绍了整群抽样的基本概念。本节中，我们来看看如何量化整群抽样的效率。为了进行比较，我们需要一个共同的衡量标准，就像比较建筑物高度需要一个统一的度量单位一样。

我们将使用抽样方差作为比较的基础。这是因为，无论是简单随机抽样还是整群抽样，它们对总体均值的估计都是无偏的，即平均而言都能得到正确答案。然而，这两种方法的抽样方差计算方式不同：简单随机抽样基于个体间的变异性，而整群抽样基于群组间的变异性。

为了进行公平比较，我们必须确保比较的基础相同。我们将在相同样本量的前提下，比较整群抽样和简单随机抽样的抽样方差。需要注意的是，在相同样本量下，整群抽样的方差通常更大（即精度更低），但其数据收集成本通常远低于简单随机抽样。

设计效应：一个比较工具

为了将整群抽样的方差与简单随机抽样的方差进行比较，我们引入一个比率，称为设计效应。

以下是设计效应的定义公式：

DEFF = V_cluster / V_srs

其中：

DEFF 代表设计效应。
V_cluster 是整群抽样（样本量为 n）下某个估计值（如比例 P）的方差。
V_srs 是相同样本量 n 下，采用简单随机抽样得到的同一估计值的方差。

设计效应是一个比值。如果 DEFF = 1，说明两种抽样方式的精度相同。如果 DEFF > 1（通常如此），则表明整群抽样的方差更大，精度低于相同样本量的简单随机抽样。

一个计算实例

回顾之前的例子：我们从1000个班级（每班24名学生）的总体中，随机抽取10个班级，调查了240名学生的免疫接种情况，发现160人完全接种。

若将这些数据视为一个整群样本，计算出的比例方差为 0.00276。
若忽略聚类结构，将这些数据视为一个简单随机样本，计算出的比例方差为 0.0009。

根据公式计算设计效应：
DEFF = 0.00276 / 0.0009 ≈ 3.07

这个结果意味着，在此例中，整群抽样的方差大约是简单随机抽样方差的3倍。尽管精度下降，但由于整群抽样在名单编制和实地访问上的成本节约巨大，这种精度损失通常是可接受的。

设计效应的用途

设计效应主要有两个用途：

分析阶段调整：在分析整群抽样数据时，若初步使用了简单随机抽样的方差公式，可以用设计效应来“放大”方差估计，以反映真实的抽样误差。
- 公式：V_cluster ≈ DEFF * V_srs
设计阶段规划：在设计新调查时，可以基于预期的设计效应，来估算需要多大的样本量才能达到目标精度。这将在后续课程中详细讨论。

设计效应的驱动因素：组内同质性

设计效应大于1的根本原因在于群组内部的特征。它主要受两个因素影响：

群组规模：每个被选群组中包含的元素数量 b。
组内同质性：同一群组内元素之间的相似程度。

群组间差异越大（异质性越高），通常意味着群组内元素越相似（同质性越高）。例如，如果学校班级是按能力分班，那么“高能力班”的学生成绩普遍较高，“低能力班”的学生成绩普遍较低。这样，班内学生成绩相似（同质高），而班间差异巨大（异质高）。

为了量化这种组内相似性，我们引入组内相关的概念。在统计学中，通常用希腊字母 ρ 表示。但在社会调查领域，常使用一个助记符 ROH。

ROH 代表 Rate Of Homogeneity，即“同质率”。它衡量的是群组内元素间的相关程度。ROH 的值介于0到1之间（实践中通常为正值）。ROH 越接近1，表示群组内元素越相似。

设计效应、群组规模 b 和同质率 ROH 之间存在明确的数学关系：

DEFF = 1 + (b - 1) * ROH

从这个公式可以看出：

当 ROH = 0 时，DEFF = 1。这意味着群组内元素毫无相似性，整群抽样效率等同于简单随机抽样。
当 ROH > 0 时，DEFF > 1。且 b（群组规模）越大，或 ROH（同质性）越高，设计效应就越大，整群抽样的效率损失就越严重。

计算同质率

我们可以利用上面的公式，从已知的设计效应 DEFF 和群组规模 b 中，反推出同质率 ROH。

公式如下：

ROH = (DEFF - 1) / (b - 1)

代入之前的例子数据（DEFF ≈ 3.07， b = 24）：
ROH = (3.07 - 1) / (24 - 1) ≈ 2.07 / 23 ≈ 0.09

这个结果 0.09 就是本例中的组内同质率估计值。它表明，同一个班级内的学生在免疫接种状态上存在一定的相似性，但相关性并不非常强。

本节总结

本节课我们一起学习了如何评估整群抽样的效率。

我们引入了设计效应，它通过比较整群抽样与相同样本量简单随机抽样的方差，量化了整群抽样的精度损失。
我们探讨了设计效应的驱动因素，特别是组内同质性，并用同质率来度量它。
我们掌握了设计效应、群组规模和同质率三者之间的关系公式：DEFF = 1 + (b - 1) * ROH。

理解这些概念和关系，对于正确分析整群抽样数据以及科学设计此类调查都至关重要。在下一节中，我们将继续深入探讨同质性的影响及其在抽样设计中的具体应用。

099：设计效应与组内相关（下）📊

在本节课中，我们将继续探讨整群抽样。我们将深入了解组内同质性（ROH）的来源及其对设计效应的影响，学习如何计算有效样本量，并通过一个实际案例来演示如何从已发表的研究中反推设计效应和ROH值。

组内同质性的来源

上一节我们介绍了设计效应受三个因素驱动。本节中，我们来看看其中最关键的因素——组内同质性（ROH）——是如何产生的。

ROH并非一个纯粹的统计现象，它更多地反映了现实世界中的实质性社会结构。以学校班级中的儿童免疫状况为例，班级间的差异往往大于班级内的差异。这主要是因为：

环境因素：不同社区在经济水平、父母教育程度上存在差异，这些因素会影响家庭获取医疗服务的成本与意识，从而导致免疫状况的社区差异。
自我选择：家庭会根据其收入水平选择能负担得起的社区住房。同时，家长也可能为了特定质量的学校而选择社区，这使得具有相似经济背景和教育观念的群体聚集在一起。
群体互动：同一社区的居民会相互交流，关于免疫的利弊、风险的态度会相互影响并趋于一致。

所有这些因素共同导致了“群间异质性”和“群内同质性”。因此，ROH通常是正值，意味着群内个体彼此相似的程度高于随机分布的情况。

有效样本量

理解了ROH的影响后，我们可以从一个新角度衡量整群抽样的效果：有效样本量。

简单随机抽样样本量为240。在整群抽样中，由于同质性的存在，我们的估计精度会下降。那么，这个整群样本在精度上相当于多大的简单随机样本呢？答案可以通过设计效应计算得出，我们称之为有效样本量。

其计算公式为：
有效样本量 = 实际样本量 / 设计效应

在我们之前的例子中，设计效应为3.029。因此，240人的整群样本，其有效样本量为：
240 / 3.029 ≈ 79

这意味着，尽管我们调查了240个个体，但由于群内同质性的存在，我们获得的信息量仅相当于一个79人的简单随机样本。这直观地展现了整群抽样对估计效率的折损。

理解ROH的极端情况

为了更好地理解ROH和设计效应的范围，我们来看两种理论上的极端分布情况。

以下是第一种极端情况：群间差异极大，群内完全同质。

情景描述：假设10个班级中，有3个班级的免疫率为0%，6个班级为100%，1个班级为某个中间值（以确保总数为160人）。这代表了最大的群间异质性和群内同质性。
计算结果：此时，群间方差 S_a² 变得非常大，设计效应接近24（即每个群的大小）。有效样本量降至10（即群的数量）。ROH值接近1（完全同质）。这表示，在同一个群内调查第一个个体后，其余个体的信息几乎是冗余的。

以下是另一种极端情况：所有群完全一致。

情景描述：所有10个班级的免疫率恰好都是2/3（即每班24人中有16人免疫）。每个班级都是总体的一个完美缩影。
计算结果：此时，群间方差 S_a² 为0，设计效应也为0，有效样本量无定义。ROH值会是一个轻微的负值。这种情况在实践中极为罕见，它需要一种不自然的完美均匀分布。

通过这两个例子可以看出，ROH通常为正值，负值仅在非常特殊且不现实的情况下出现。

案例实操：从文献中反推设计效应

在实际研究中，我们常需要评估他人研究中整群抽样的影响。假设我们读到一篇论文，其信息如下：

研究结果：某特征在总体中的比例为 P = 0.4 (40%)。
样本设计：采用单阶段整群抽样，共抽取 60个群，每个群包含 40个个体，总样本量 n = 2400。
报告数据：该比例的标准误为 0.015。

我们想知道该研究的设计效应和ROH是多少。以下是推算步骤：

步骤1：计算简单随机抽样下的理论方差
公式为：Var_srs = P * (1 - P) / n
代入数值：0.4 * 0.6 / 2400 = 0.0001

步骤2：计算实际抽样方差
将报告的标准误平方：0.015² = 0.000225

步骤3：计算设计效应
公式为：Deff = Var_actual / Var_srs
代入数值：0.000225 / 0.0001 = 2.25

步骤4：计算ROH值
利用公式 Deff = 1 + (b - 1) * ROH 反推，其中 b 是群规模（40）。
ROH = (Deff - 1) / (b - 1) = (2.25 - 1) / (40 - 1) ≈ 0.032

通过以上计算，我们得出结论：这篇论文采用的整群抽样设计，使其估计的方差增大了约2.25倍，这由约0.032的组内同质性所驱动。尽管ROH值看起来很小，但乘以较大的群规模（39）后，对设计效应产生了显著影响。

总结与预告

本节课中，我们一起深入学习了组内同质性（ROH）的社会学实质来源，掌握了用有效样本量直观衡量整群抽样效率损失的方法，并通过案例演练了如何从已有研究中反推设计效应和ROH值。

我们了解到，ROH通常为正值，它反映了现实社会中的聚集模式，会增大抽样方差、降低估计效率。在设计调查时，必须考虑其影响。

至此，关于“等规模整群且群内全部调查”的内容已介绍完毕。接下来的课程将探讨更现实的情况：两阶段抽样，即先从总体中抽取一部分群，再从每个被抽中的群中抽取一部分个体进行调查。我们将在下一讲中详细讨论。

100：两阶段抽样 📊

在本节课中，我们将学习两阶段抽样。这是一种复杂的抽样方法，它结合了整群抽样和简单随机抽样的特点。我们将探讨其工作原理、如何影响抽样方差，以及如何计算设计效应。

概述

上一节我们介绍了整群抽样，即先抽取群组，然后调查群组内的所有元素。本节中，我们来看看两阶段抽样。在这种方法中，我们不仅在第一阶段抽取群组样本，还会在第二阶段从每个被选中的群组中再抽取一个元素子样本。这种方法可以在控制成本的同时，更灵活地设计调查。

两阶段抽样的基本过程

两阶段抽样的过程可以清晰地分为两个步骤。

以下是其基本步骤：

第一阶段：从总体中随机抽取一定数量的群组（例如，街区或班级）。
第二阶段：在每个被抽中的群组内部，再随机抽取一部分元素（例如，住房单元或学生）进行调查。

抽样方差与设计效应

现在，我们来分析两阶段抽样如何影响抽样方差。其核心公式与我们之前讨论的整群抽样方差公式相似：

公式：抽样方差 ≈ (1 - f) / a * S_a²

其中：

f 是总抽样比。
a 是第一阶段抽取的群组数量。
S_a² 是基于样本数据计算的群组间方差。

这里有一个关键点：S_a² 不仅包含了群组之间的真实差异，还包含了第二阶段子抽样带来的变异。因为即使对于同一个群组，抽取不同的子样本也会得到略有不同的群组均值或比例。幸运的是，使用这个公式计算出的标准误已经自动包含了群组内变异的成分。

实例分析：班级免疫率调查

让我们回到学校班级的例子，看看两阶段抽样的实际应用。假设一个学区有1000个班级（N=1000），每个班有24名学生。

原方案（一阶段整群抽样）：抽取 a=10 个班级，调查每个班所有 b=24 名学生。总样本量 n = 10 * 24 = 240。
新方案（两阶段抽样）：抽取 a=20 个班级，在每个班内再随机抽取 b=12 名学生。总样本量保持不变，n = 20 * 12 = 240。

虽然总样本量相同，但设计效应会发生变化。设计效应的计算公式为：

公式：设计效应 = 1 + ρ * (b - 1)

其中 ρ 是群内同质性系数。假设 ρ = 0.088 不变：

原方案设计效应为 1 + 0.088*(24-1) ≈ 3.0。
新方案设计效应为 1 + 0.088*(12-1) ≈ 1.97。

设计效应降低，意味着有效样本量增加，抽样精度得到提升。

权衡：精度与成本

通过调整第一阶段群组数 a 和第二阶段子样本量 b，我们可以在保持总样本量 n 不变的情况下优化设计。

以下是不同 a 和 b 组合的对比：

a=10, b=24：设计效应 ≈ 3.0，有效样本量 ≈ 80。
a=20, b=12：设计效应 ≈ 1.97，有效样本量 ≈ 122。
a=30, b=8：设计效应 ≈ 1.62，有效样本量 ≈ 148。
a=80, b=3：设计效应 ≈ 1.18，有效样本量 ≈ 203。

可以看出，增加群组数 a 并减少每群样本量 b，可以显著降低设计效应、提高有效样本量，从而降低抽样方差。

然而，这并非没有代价。调查更多的群组通常意味着更高的成本（如差旅费、联络费）。因此，最优的抽样设计需要在统计精度和调查成本之间找到最佳平衡点。

总结

本节课中我们一起学习了两阶段抽样。我们了解到，这种方法通过在第一阶段抽取群组、第二阶段抽取群组内元素，提供了更大的设计灵活性。关键在于，减少每群的样本量 b 可以降低设计效应、提高精度，但同时会增加群组数量 a 从而可能推高成本。下一讲，我们将探讨如何为两阶段抽样进行具体设计。随后，在讨论了不等规模群组后，我们将学习如何利用成本模型来确定最优的 a 和 b 组合。

101：两阶段抽样设计（上）📊

在本节课中，我们将学习如何设计两阶段抽样方案。我们将探讨如何通过预测设计效应、计算样本量以及评估置信区间，来规划一个满足特定要求的抽样设计。

从估计到设计

上一节我们讨论了简单形式的整群抽样，即从群中抽取所有元素。现在，我们将探讨更复杂的两阶段抽样设计。我们需要做哪些准备，才能选择一个满足客户要求或我们自身期望的样本呢？

因此，我们从设计的角度出发，目标是找到一种选择样本的方法，以满足特定要求。在本节中，我们将讨论三个核心方面。

以下是设计时需要考虑的三个关键点：

预测新设计的设计效应。
理解设计效应对样本量的影响。
预测我们设计的标准误和置信区间。

所有这些考虑都是设计新样本、解决新问题这一整体工作的一部分。

回顾：估计与设计效应

到目前为止，我们所做的主要是估计，特别是估计标准误或方差。如果我们讨论方差，自然也会想到标准误，因为标准误是方差的平方根。

对于一个两阶段整群样本，我们讨论了如何估计一个统计量（例如比例）的方差。对于当前设计（我们称之为设计1），我们使用现有数据套用以下公式进行计算：

公式： Var(p) = (1 - f) / a * S_a²

其中：

(1 - f) 是有限总体校正因子。
a 是样本中的群数量。
S_a² 是群特征在群间的变异性。

我们计算方差后，取其平方根即可得到标准误，进而计算置信区间。

但我们还做了另一件事：理解设计对结果的影响。我们将其与简单随机抽样进行比较，引入了设计效应的概念。

为了估计设计效应，我们需要用同一组数据计算两个方差：

当前设计（设计1）下该比例的实际方差。
在简单随机抽样假设下，该比例的方差。

对于一个比例，简单随机抽样下的方差计算公式为：

公式： Var_srs(p) = (1 - f) * [p(1-p) / (n-1)]

然后，我们将这两个方差组合起来，得到设计效应 Deff，它是一个比值：

公式： Deff = Var(p) / Var_srs(p)

按照标准定义，我们将简单随机抽样方差放在分母，作为比较的基准。

最后，我们从设计效应中提取出驱动因素——组内同质性系数 ρ。我们通过以下公式估计它：

公式： ρ = (Deff - 1) / (b - 1)

其中 b 是当前设计中每个群的子样本量（元素数量）。这样，我们就得到了同质性系数 ρ 的值。

第一条分析路径（估计方差和置信区间）对我们来说最实用。而第二条路径（计算设计效应和 ρ）则是为下一步设计做铺垫。

核心：设计预测

接下来，我们将基于现有设计规划新的设计。我们可能在不同总体中进行新应用，也可能在同一总体的不同时间点进行调查，甚至可能改变样本设计（例如改变子样本量 b、群数量 a 或总样本量 n）。

我们需要进行预测：在尚未抽取样本的新设定下，结果会怎样？这类似于气候变化预测，我们在不同模型下预测可能发生的情况。

对我们而言，两个关键结果是：均值（或比例）及其标准误。为了预测新设计下的标准误，我们需要利用过去的信息。

我们之前计算的同质性系数 ρ 在某种意义上变得可移植。它成为我们进行预测的基础构件。我们将使用从过去调查中计算出的 ρ 值来预测新设计的设计效应。

请注意，这里我们不是通过方差比来计算设计效应，而是通过以下组合来计算一个预测的设计效应：

公式： Deff_proj = 1 + (b_new - 1) * ρ

我们不会发明一个新的 ρ，而是借用过去数据中的 ρ，因为我们使用的是非常相似的群（例如，上次用学校，这次还用学校）并测量非常相似的特性（ρ 是针对特定变量的）。

同时，如果我们能计算或获得简单随机抽样下的方差，我们就可以结合设计效应和简单随机抽样方差，来预测新设计下的实际方差，从而量化我们预期的不确定性。

我们可以计算简单随机抽样方差。为了简化计算，这里我们忽略有限总体校正因子 (1-f)，对于一个比例，其公式为：

公式： Var_srs_proj = p(1-p) / n_new

我们有了新的子样本量 b_new、新的总样本量 n_new、旧的 ρ 值，以及一个对比例 p 的假设（可以使用过去值或根据预期变化设定新值）。

现在，我们有了构建最终预测抽样方差的所有要素：

公式： Var_proj = Deff_proj * Var_srs_proj

这个预测的抽样方差告诉我们能预期多大的不确定性。特别是当我们将其与 t 统计量或 z 统计量结合以得到 95% 置信区间时。

应用示例：比较两种设计方案

让我们看一个例子。假设我们之前有一个样本：总样本量 n=2400，分布在 60 个群中，每个群有 b=40 个观测值。

现在，我们计划对同一总体再次调查，但资源只能支持一半的样本量，即 1200 个案例。我们考虑两种达到此样本量的方案：

方案 A：通过减少群数量来削减样本量（群数量减半）。
方案 B：通过减少子样本量来削减样本量（每个群内元素减半）。

问题是：在这两种新设计下，我们预期的样本比例 p 的抽样方差（和标准误）分别是多少？

我们拥有进行这种预测的工具。基本模型涉及设计效应、同质性系数 ρ 和子样本量 b，以及一个简单随机抽样方差，我们可以用设计效应对其进行调整以反映整群效应。

对于方案 A 的预测步骤：

计算新设计下的预测设计效应 Deff_proj（使用旧的 ρ 和旧的 b=40，因为子样本量没变）。
计算新样本量 (n=1200) 和假设比例 (p=0.4) 下的简单随机抽样方差 Var_srs_proj。
计算预测方差：Var_proj = Deff_proj * Var_srs_proj。

对于方案 A：

设计效应 Deff_proj = 1 + (40 - 1) * ρ。假设 ρ 来自旧设计，计算得 Deff_proj ≈ 2.18（与旧设计相同）。
简单随机抽样方差 Var_srs_proj = 0.4*0.6 / 1200 = 0.0002。
预测方差 Var_proj = 2.18 * 0.0002 = 0.000436。

对于方案 B 的预测步骤：
重复上述步骤，但将 b 从 40 替换为 20，ρ 和 p 的假设值不变。

对于方案 B：

设计效应 Deff_proj = 1 + (20 - 1) * ρ。计算得 Deff_proj ≈ 1.575。
简单随机抽样方差 Var_srs_proj 不变，仍为 0.0002（因为总样本量 n 仍是 1200）。
预测方差 Var_proj = 1.575 * 0.0002 = 0.000315。

结果比较：

设计	总样本量 (n)	群数量 (a)	子样本量 (b)	设计效应 (Deff)	预测方差 (Var_proj)
原始设计	2400	60	40	2.18	0.000218
方案 A	1200	30	40	2.18	0.000436
方案 B	1200	60	20	1.575	0.000315

通过比较可以看出：

在方案 A 中，通过将群数量减半来将总样本量减半，导致预测方差翻倍（从 0.000218 到 0.000436）。反之，如果通过加倍群数量来加倍样本量，方差会减半。
在方案 B 中，通过将子样本量减半但保持群数量不变来达到相同总样本量，设计效应降低，预测方差为 0.000315，小于方案 A 的方差。

现在我们有了量化的方法来比较不同方案，并可以据此决定使用哪种方法更优。

本节总结与下节预告

本节课中，我们一起学习了如何为两阶段抽样进行设计预测。我们回顾了从估计方差到计算设计效应和同质性系数 ρ 的过程。核心在于，利用过去的 ρ 值，结合新设计的参数（b_new, n_new），可以预测新设计下的设计效应和抽样方差，从而在实施前评估不同设计方案的效率。

我们通过一个例子比较了两种削减样本量的方案，发现保持更多的群数而减少每个群内的样本量（方案 B），通常能获得更小的预测方差（即更高的精度），因为设计效应降低了。

在结束本讲之前，我们还有两个重要问题需要探讨：

设计效应对样本量确定的影响。
这些预测方差对置信区间宽度的影响。

我们将在下一部分（两阶段抽样设计（下））中详细研究这些问题。

102：两阶段抽样设计（下）📊

在本节课中，我们将继续学习两阶段抽样设计。我们将探讨两个核心主题：设计效应及其对样本量的影响，以及如何为新设计预测标准误和置信区间。

上一节我们介绍了设计效应的概念及其在方差计算中的应用。本节中我们来看看如何利用设计效应来确定样本量，并综合运用这些知识进行预测。

设计效应与样本量确定

我们知道，整群抽样会使方差增加一个因子，这个因子就是设计效应。方差增加的公式为：1 + (B - 1) * ρ。我们可以利用过去的信息和选定的群内样本量 B 来预测这个效应。

设计效应是与简单随机抽样进行比较的。为了抵消因设计效应而增加的方差，我们可以通过增加样本量来实现。具体做法是，从一个简单随机抽样所需的样本量出发，然后将其乘以设计效应进行“膨胀”。

需要记住的是，整群抽样通过仅汇编选定群内的元素清单或减少需要前往的群数量，可以节省大量成本。

样本量计算示例

假设在简单随机抽样的设计过程中，我们确定要估计的比例约为 0.4，并希望得到一个令客户满意的 95% 置信区间，范围在 0.37 到 0.43 之间。

这个置信区间对应的误差幅度为 ±0.03。对于 95% 的置信区间，其乘数约为 1.96（或近似为 2）。因此，我们可以从误差幅度反推出所需的标准误：0.03 / 1.96 ≈ 0.015。

这意味着，为了实现这个置信区间，我们需要的抽样方差应为标准误的平方：0.015² = 0.000225。

对于一个简单随机样本，其样本量计算公式为（假设总体很大，忽略有限总体校正）：
n_srs = S² / V_d
其中，S² 是元素方差，V_d 是期望的抽样方差。

对于比例估计，元素方差 S² 可近似为 p * (1 - p)，即 0.4 * 0.6 = 0.24。

因此，简单随机抽样所需的样本量为：
n_srs = 0.24 / 0.000225 ≈ 1066.67

然而，如果我们采用整群抽样，设计效应会导致方差膨胀，从而使置信区间变宽。为了将置信区间宽度恢复到目标范围，我们需要增加样本量。

如果预测的设计效应为 2.18，那么整群抽样所需的样本量应为：
n_cluster = n_srs * 设计效应 = 1066.67 * 2.18 ≈ 2325

预测不同设计的置信区间

我们还可以利用设计效应和预测过程，进一步评估不同设计方案下的置信区间表现。

假设我们考虑另一种设计方案 B：抽取 60 个群，每个群内抽取 20 个元素，总样本量为 1200，预测设计效应为 1.58。

以下是计算其 95% 置信区间的步骤：

首先计算简单随机抽样下的方差：V_srs = p*(1-p)/n = 0.24/1200 = 0.0002。
用设计效应调整方差，得到整群设计下的预测方差：V_cluster = V_srs * 设计效应 = 0.0002 * 1.58 = 0.000316。
计算标准误：SE = sqrt(V_cluster) = sqrt(0.000316) ≈ 0.01778。
计算 95% 置信区间的误差幅度：ME = 1.96 * SE ≈ 1.96 * 0.01778 ≈ 0.0348。
因此，预测的置信区间为：0.4 ± 0.0348，即大约 (0.365, 0.435)。

可以看到，由于设计效应不同，即使总样本量不同，最终的置信区间宽度也可能相近。

课程总结与下节预告

本节课中我们一起学习了：

如何利用预测的设计效应来确定整群抽样所需的样本量，以抵消方差膨胀的影响。
如何综合运用预测的标准误和设计效应，为新设计方案构建预测的置信区间。

这些是抽样设计过程中的基本要素。掌握了这些，我们就能更好地规划和评估整群抽样调查。

在下一讲（第3单元第5讲）中，我们将进入更贴近现实的世界：处理规模不等的群。届时我们将放松“所有群规模相同”的约束，学习如何处理不等规模群情况下的抽样设计问题。敬请继续学习。

103：现实问题处理：不等规模群组（上）📊

在本节课中，我们将要学习如何处理现实世界中常见的“不等规模群组”问题。之前我们讨论的群组（如街区、教室）都是规模相等的理想情况，但在实际调查中，群组规模往往差异很大。本节将探讨这种差异带来的问题，并介绍一种名为“与规模成比例的概率抽样”的解决方案。

问题的本质

上一节我们介绍了等规模群组的抽样方法。本节中，我们来看看当群组规模不相等时会遇到什么挑战。

我们处理的是自然形成的群组，例如学校或医院。这些群组的规模并非人为设定，而是现实存在的，因此它们之间在规模上存在差异。为了控制抽样成本，我们通常会先抽取一部分群组，再从每个被选中的群组中抽取一部分个体。

当群组规模相等时，这种两阶段抽样方法运作良好。然而，当群组规模不等时，我们会遇到两个主要问题：样本量的随机波动和个体入样概率的不均等。让我们通过一个例子来具体说明。

一个医院系统的例子

假设我们有一个包含12家医院的系统，共有6000名员工。我们的目标是抽取约100名员工进行工作满意度调查。医院规模（员工数）差异很大，从最小的60人到最大的1860人。

如果我们采用简单的两阶段抽样：

从12家医院中随机抽取2家（第一阶段）。
从每家被选中的医院中抽取十分之一的员工（第二阶段）。

以下是可能遇到的问题：

样本量失控：如果抽中的两家医院规模都很小（例如60人和180人），我们最终只能得到约24名员工的样本。反之，如果抽中两家大医院，样本量可能远超100人。这给预算和现场执行带来了巨大困难。
估计量复杂化：由于最终样本量 n 变成了一个随机变量，我们计算平均值时使用的分母不再固定。这导致我们得到的估计量是一个比率估计量，其形式为 ȳ = (∑y) / n，其中 n 是变化的。这种估计量的方差计算会变得非常复杂。

尝试解决方案：固定群组内样本量

为了解决样本量波动的问题，一个直观的想法是：固定从每个被选中群组内抽取的个体数量。例如，无论抽中哪家医院，我们都从中抽取恰好50名员工。

这样确实保证了总样本量稳定在100人。但是，这引入了新的问题：个体入样概率变得不平等。

让我们计算一下：

对于一家只有60名员工的小医院，其员工被抽中的概率是：(2/12) * (50/60) ≈ 0.139
对于一家拥有1860名员工的大医院，其员工被抽中的概率是：(2/12) * (50/1860) ≈ 0.0045

可以看到，小医院员工的入样概率大约是大医院员工的30倍！这意味着在样本中，小医院的员工被过度代表了。如果员工满意度与医院规模相关（例如，小医院员工可能更满意），那么这种抽样设计就会系统性地高估或低估总体满意度，从而引入偏差。

面临的困境

至此，我们陷入了两难境地：

如果保持两阶段抽样率固定，会导致总样本量剧烈波动。
如果固定每个群组内的样本量，会导致个体入样概率不均等，从而可能引入偏差，后续必须通过复杂的加权来校正。

显然，我们需要一种更聪明的抽样方法，能够同时控制样本量并保证（或至少更容易实现）个体入样概率的平等。

本节课中我们一起学习了不等规模群组抽样时遇到的核心矛盾。我们看到了固定抽样率会导致样本量波动，而固定群组内样本量又会导致入样概率不均等。在下一节中，我们将介绍解决这一困境的关键方法：与规模成比例的概率抽样。这种方法通过调整第一阶段的抽样概率，为最终实现等概率抽样提供了优雅的解决方案。

104：现实问题处理：不等规模群组（下）📊

在本节课中，我们将继续学习如何处理现实抽样中的不等规模群组问题。上一节我们讨论了不等规模群组给样本设计带来的复杂性，以及使用加权进行调整的思路。本节中，我们将介绍一种通过两阶段抽样机制来处理此问题的替代方案：与规模成比例的概率抽样。

核心目标与方法介绍

我们需要的抽样方法需同时具备两个理想特性：

所有个体（如员工）拥有相等的入样概率（例如1/60）。
每个被选中的群组（如医院）中抽取相同数量的元素（如50名员工）。

这可以通过一个两阶段抽样过程实现，其整体抽样比 f 由两个部分构成：

第一阶段：群组（医院）被选中的概率 P(α)。
第二阶段：在选中的群组内，元素（员工）被选中的概率。

整体抽样比需满足：
f = P(α) * (b / B_α) = 1/60
其中，b 是计划从每个选中群组中抽取的元素数量（固定值，如50），B_α 是第 α 个群组的实际规模。

通过数学推导可知，要使上述等式对所有规模不同的群组都成立，第一阶段群组的入样概率必须与其规模成比例：
P(α) = B_α / 3000
（假设总体规模为3000）

这意味着，在第一阶段，我们过度抽样大群组（因其 P(α) 更大），欠抽样小群组。而在第二阶段，为了补偿并实现最终每个个体的等概率，我们在小群组内过度抽样员工（因为 b/B_α 值更大），在大群组内欠抽样员工。两阶段的概率乘积最终恒等于 1/60。

与规模成比例的概率抽样实施步骤 🛠️

为了实际操作这种抽样方法，我们需要一个系统化的流程来抽取概率与规模成比例的群组。以下是具体步骤。

首先，我们需要一份包含所有群组及其规模的列表，并计算累积规模。

医院编号	实际规模 (B_α)	累积规模
1	420	420
2	180	600 (420+180)
3	120	720 (600+120)
...	...	...
12	240	6000 (总体)

接下来，我们进行系统性的PPS抽样。

生成随机数：假设我们需要抽取2个医院。我们生成一个在1到3000（6000/2）之间的随机数作为起点。例如，702。
定位第一个医院：在累积规模列中，找到第一个其累积规模大于或等于该随机数（702）的医院。在本例中，是医院3（累积规模720）。
定位第二个医院：将第一个随机数加上间隔 K = N / n = 6000 / 2 = 3000，得到第二个数 702 + 3000 = 3702。在累积规模列中找到第一个其累积规模大于或等于3702的医院。在本例中，是医院10。
完成第一阶段抽样：至此，我们抽中了医院3和医院10。这种方法被称为系统性与规模成比例的概率抽样，它能确保每个群组最多只被选中一次。
进行第二阶段抽样：在选中的每个医院内，使用简单随机抽样方法，分别抽取 b = 50 名员工。例如，从医院3（规模120）中随机抽50人，从医院10（规模假设为360）中随机抽50人。

通过此方法，我们实现了：大医院因规模大而有更高概率被抽中，但一旦被抽中，其内部员工的被抽中概率较低；小医院则相反。最终，所有员工的总入样概率保持一致。

关于子样本规模的思考 💡

在结束不等规模群组的讨论前，一个自然的问题是：如何确定每个群组内应抽取的元素数量 b？为什么是每个医院抽50人，而不是30人或70人？

选择 b 的大小涉及精度、成本与操作复杂度的权衡。较大的 b 意味着每个被调查群组能提供更多信息，但可能调查的群组总数会减少，这会影响样本对群组间差异的代表性。反之，较小的 b 允许我们调查更多不同的群组，但每个群组提供的信息量较少。

这将是我们在下一讲，也是第三单元关于整群抽样的最后一讲中，将要深入探讨的主题：如何最优地决定子样本规模。

总结

本节课我们一起学习了处理不等规模整群抽样的一个强大工具——与规模成比例的概率抽样。我们了解到，通过精心设计的两阶段抽样，可以同时实现个体等概率入样和群组内固定样本量这两个目标。关键步骤包括构建累积规模列表、使用系统PPS法抽取群组，然后在选中的群组内进行二次抽样。这种方法虽然计算上更复杂，但能有效应对现实世界中群组规模不等的挑战，是大型社会调查中常用的抽样技术。

105：抽样比例 📊

在本节课中，我们将学习整群抽样设计的最后一个关键环节：如何确定最优的子样本规模（即每个群内应抽取的元素数量 B）。我们将结合成本模型和方差模型，找到在固定预算下能使抽样方差最小的 B 值，并据此确定应抽取的群数 A。

上一节我们探讨了不同子样本规模 B 对设计效应和标准误的影响。本节中，我们将具体分析如何选择 B 值，并理解其背后的成本与误差权衡。

成本与方差的权衡

在整群抽样中，子样本规模 B 是一个核心设计参数。它直接影响两方面：

方差：B 通过设计效应影响抽样方差。设计效应公式为：
设计效应 = 1 + (B - 1) * ρ
其中 ρ 是群内同质性系数。B 增大，设计效应通常增大，导致方差增大。
成本：在固定总样本量或固定预算下，B 增大，意味着可抽取的群数 A 必须减少，从而可能降低总成本（因为与访问每个群相关的启动和差旅成本较高）。

因此，设计整群抽样时，需要在成本（受 A 影响）和误差（受 B 影响）之间进行权衡。我们的目标是：在满足预算约束的前提下，找到使抽样方差最小的 A 与 B 组合。

建立成本模型

为了量化分析，我们需要一个成本模型。一个典型的成本模型如下：

总可用预算 = A * C_a + A * B * C_b

以下是该公式各部分的解释：

A * C_a：这是与抽取和访问群相关的成本。C_a 代表每个群的固定成本，主要包括差旅费、与群内机构（如学校、社区）的前期沟通协调成本等。这部分成本通常较高。
A * B * C_b：这是与收集群内元素数据相关的成本。C_b 代表在群内收集一个元素数据的平均成本（如访谈费、测试费）。B 是每个群内抽取的元素数量。

这个模型将总预算分解为与群数量 A 和群内样本量 B 相关的两部分。

建立方差模型

我们已知整群抽样的方差公式可以表示为：

方差 = [ (1 - f) * S^2 / (A*B - 1) ] * [1 + (B - 1) * ρ]

这个模型清晰地显示了方差如何同时依赖于群数 A 和群内样本量 B。A 增大通常能降低方差，但 B 对方差的影响是双重的：既通过分母 (A*B)，也通过设计效应 [1 + (B - 1)*ρ]。

求解最优子样本规模 `B`

我们的目标是在固定预算约束下，最小化上述方差。通过数学优化（如拉格朗日乘数法），可以推导出使方差最小的最优 B 值公式：

B_opt = sqrt( (C_a / C_b) * ((1 - ρ) / ρ) )

这个公式揭示了如何根据成本参数和同质性系数来确定 B：

C_a / C_b（成本比）：如果访问每个群的固定成本 C_a 很高，那么一旦到达一个群，就应该多做一些调查（B_opt 增大），以分摊高昂的固定成本。反之，如果群内单个元素的调查成本 C_b 很高，那么在每个群内就应该少做一些调查（B_opt 减小）。
(1 - ρ) / ρ（同质性比）：如果群内同质性 ρ 很高（元素很相似），那么从同一个群内多抽取元素带来的新信息很少，此时应减少 B_opt。反之，如果同质性 ρ 很低，则可以增大 B_opt。

确定群数 `A` 与实例

一旦计算出最优的 B_opt，我们就可以利用成本模型反推出在固定预算下可以承担的群数 A：

A = 总可用预算 / (C_a + B_opt * C_b)

计算出的 A 可能需要取整，而 B_opt 通常保留小数，因为它代表的是平均每个群应抽取的元素数，在实际操作中可以通过在不同群分配不同的样本量来实现这个平均值。

以下是一个计算实例：
假设用于数据收集的预算为 $10,000，C_a = $65，C_b = $25，根据以往研究，关键变量的平均群内同质性 ρ = 0.05。

计算最优 B：
B_opt = sqrt( (65 / 25) * ((1 - 0.05) / 0.05) ) = sqrt( 2.6 * 19 ) ≈ sqrt(49.4) ≈ 7.03
计算群数 A：
A = 10000 / (65 + 7.03 * 25) = 10000 / (65 + 175.75) = 10000 / 240.75 ≈ 41.54
实际设计：将 A 向下取整为 41 个群。为了用尽预算，可以略微调整 B 的平均值至约 7.15。由于最优值附近方差函数变化平缓，这样的微调对效率影响很小。

整群抽样设计步骤总结

基于最优子样本规模的设计，可以归纳为以下步骤：

估计参数：根据前期研究或类似调查，估计关键变量的群内同质性系数 ρ。
核算成本：估算访问每个群的固定成本 C_a 和在群内调查每个元素的平均成本 C_b。
计算最优B：使用公式 B_opt = sqrt( (C_a / C_b) * ((1 - ρ) / ρ) ) 计算最优子样本规模。
确定A与总样本量：在给定预算下，计算可抽取的群数 A，并得到总样本量 n = A * B_opt。
评估精度：基于确定的 A、B_opt 和 ρ，计算预期的设计效应、抽样方差和置信区间，评估设计是否满足精度要求。

本节课中我们一起学习了如何通过平衡成本和方差来确定整群抽样的最优子样本规模。我们引入了成本模型和方差模型，并推导出计算最优 B 值的核心公式。这是设计高效、经济的整群抽样的关键一步。

在下一个单元中，我们将转向另一种利用辅助信息提高样本效率的方法：分层抽样。我们将学习如何利用已知的总体信息（如年龄、地区）对总体进行分层，从而抽取更具代表性、精度更高的样本。敬请关注。

106：分组方法 📊

在本节课中，我们将学习分层抽样的核心概念——如何将总体划分为不同的组（即“层”），并从中抽取样本。这种方法能让我们以更低的成本获得更精确的估计结果。

概述与背景

在前三个单元中，我们讨论了选择样本的各种方法。现在，我们进入第四单元，这个单元的主题在传统上被称为“分层”。分层是一种抽样过程，它通常不需要投入很高的成本，就能让我们获得更高效的样本，即具有更小标准误的样本。

欢迎来到第四单元“提高效率”。我们将通过六讲内容来学习分层抽样的基本思想。分层是核心理念，而分层抽样是具体过程。

在讨论中，我们将涵盖如何形成分组、通过示例了解分组方式、抽样方差与估计精度、如何通过不同的分组方式获得更高的效率增益、如何在各组间分配样本，以及与分层相关的加权问题。

本节是第一讲，我们将重点讨论如何形成分组。这里有四个基本要点需要了解：分组的过程、使用离散（分类）变量、如何进行选择，以及如何跨组合并数据以获得对原始总体的估计。

分组过程详解

为了说明，让我们回顾之前的一个例子。我们有一个大学教职员工的名单。名单中包含了每个元素的识别号、序列号、八位数的ID、所属院系、性别和职称。在之前的抽样活动中，我们只使用了序列号标签来抽取样本。现在，我们将有意地利用名单中每个元素都具备的额外信息（辅助变量），例如院系、性别和职称，来在抽样前创建分组。

以下是分层过程的具体步骤：

第一步：定义总体与抽样框

首先，我们需要定义总体。在本例中，总体是大学的所有教职员工。我们有一个包含400名教职员工的名单作为抽样框。这个框可能存在缺陷，例如可能遗漏了新入职的员工，或者包含了已离职的员工。但这就是我们工作的起点。

在抽样框中，我们拥有每个元素的辅助变量信息：序列号、ID、职称、性别和院系。这对应着我们理解统计估计过程的七步法中的前两步。

第二步：基于辅助变量划分分组

接下来，我们将根据辅助变量将抽样框（从而也隐含地将总体）划分为多个组。这与整群抽样不同，在整群抽样中，我们只抽取部分群组进入样本。而在分层抽样中，所有组（层）都将被抽样。

用于划分的辅助变量必须是离散的或分类的，并且必须为名单上的每个元素所知。如果某些元素的某个辅助变量值未知，我们可能需要将其归入一个“缺失数据”类别。每个元素都必须且只能被分到一个组中。

然后，我们计算每个组中的元素数量，记为 N_h（h代表组别）。同时，我们还需要知道每个组在总体中的比例，记为 W_h。这个 W_h 将作为权重，用于在最终估计时合并各层的结果。

例如，如果我们根据“职称”将教职员工分为助理教授、副教授和正教授三层，我们就能得到每层的人数 N_h 和占比 W_h。

第三步：从每组中抽取样本

现在，我们从每个组（层）中独立抽取一个样本，样本量记为 n_h。这是七步法中的第三步。

我们还需要记录每个层的抽样率或抽样分数 f_h，其计算公式为：
f_h = n_h / N_h

在我们的例子中，假设总体样本量为80（即20%的抽样率），并且我们决定按各层在总体中的比例来分配样本量。这意味着每个层的抽样率 f_h 都是0.2。这种设计被称为等概率抽样法，在分层抽样中也称为比例分配。

第四步：计算组内均值与合并估计

抽取样本并收集数据（例如，询问他们的年薪）后，我们进入估计阶段。这里分为两个子步骤：

计算各层的样本均值：分别计算助理教授、副教授、正教授三个层的平均年薪。
合并各层估计以获得总体估计：使用各层在总体中的权重 W_h 来合并层均值，从而估计总体均值。公式如下：

总体均值估计 = Σ (W_h * 第h层的样本均值)

通过这种加权方式，最终总体估计值中，各层的贡献度与其在总体中的规模成正比。

分层抽样的优势

这种抽样方法有一个显著的优点：它提高了估计的可信度。通过分层，我们控制了样本在重要分组（如职称）上的分布，使其与总体分布一致。我们知道不同职称的薪水可能存在差异，分层确保了我们的样本在这个维度上“代表”了总体。

在简单随机抽样中，有可能（尽管概率很小）抽到一个极端不平衡的样本（例如，几乎全是助理教授）。分层随机抽样（特别是比例分配）消除了这种可能性，使样本分布与总体分布相似，从而通常能获得更精确、更稳定的估计结果。

总结与下节预告

本节课中，我们一起学习了分层抽样的第一步——如何形成分组。我们了解了分层的完整过程：从定义总体和抽样框开始，利用已知的辅助变量将总体划分为互斥且完备的层，记录各层的规模与权重，然后从每个层中独立抽取样本。

我们看到了如何通过加权平均的方式，将各层的估计值合并，从而得到对总体参数的估计。这种比例分配的分层设计，使样本结构能够反映总体结构，提高了估计效率。

当然，我们只完成了七步估计过程中的前四步。接下来，我们需要想象所有可能的分层样本构成的抽样分布（第五步），并在此基础上计算标准误（第六步）和置信区间（第七步）。在下一讲中，我们将探讨分层抽样背景下的抽样方差，进一步理解其如何帮助我们“变得更高效”。

107：分层抽样的抽样方差 📊

在本节课中，我们将学习分层随机抽样中抽样方差的计算方法。我们将了解如何通过分层来改变抽样分布，并评估其效率相对于简单随机抽样的提升。

上一节我们介绍了分层抽样的基本概念和分配过程。本节中，我们来看看分层随机样本的抽样方差会发生什么变化。

可以想象，当我们进行分层时，抽样分布会发生变化，就像整群抽样一样。我们需要观察这个新的抽样分布，其变异性是比简单随机抽样（我们的基准比较）更大还是更小。这是我们计算整群抽样设计效应时分母所使用的比较基准。

我们的前提是，我们已经将总体（例如400名教师）划分并识别出一个抽样框，将其分为若干组（例如三组，图中展示了两组），并从每组中分别抽取一个样本。然后，我们计算了每个组的估计值，并跨组（本例中是三组）进行合并。

现在，通过这个过程计算出的均值的抽样方差会发生什么变化？理论上，你会预期它与均值估计的情况非常相似。我们将计算每个层（组）内的抽样方差，然后将它们合并。

因此，我们看到了抽样方差。记住抽样方差的一般定义，并进行代数推导，得出我们可以使用的均值抽样方差表达式，结果将是这样的。它将涉及每个组内单独的抽样方差，并跨层求和，但需要加权。不过，这里的权重不是使用 W_h（即每个层在总体中的比例），而是使用 W_h 的平方。为什么是平方？因为我们处理的是方差，我们处于平方维度上。我们需要取平方根来得到标准误，但我们处理的是方差，所以包括权重因子在内的一切都需要平方。

这意味着，当我们计算这种估计值时，我们将计算每个层内的估计抽样方差。我们将不再使用 Var(ȳ_h)，而是使用 var(ȳ_h)。两者都乘以 W_h²，但在后一种情况下，我们得到的是估计抽样方差，因为我们使用了样本中的数据来计算该方差。我们将它们合并以获得整体的估计抽样方差。

这些层内的抽样方差是什么？这取决于我们如何抽取样本。在我们的例子中，我没有说明，但让我们假设，当我从每个层中抽取样本时（例如，从第一层抽取23名助理教授），我将该分配视为一个简单随机样本。这意味着在每个层内，我们将像处理简单随机抽样一样计算抽样方差。我们需要一个索引来跟踪它。因此，在最后一行你会看到，每个层均值 ȳ_h 的方差是 (1 - f_h) / n_h * S_h²。我们需要知道每个层内的元素方差 S_h²。我们需要取该层内的样本个案（例如23个），并计算这些个体工资的变异性，使用与之前完全相同的元素方差公式：每个值 y_h 减去该层内的均值 ȳ_h。我们进行三次抽样方差计算，每个层一次，每次基于不同的元素方差。

因此，我们需要层内方差来完成这个计算。让我们假设我们在每个层内进行了简单随机抽样。

我们回到我们的展示，并完成了这个计算。我们取了23个助理教授的样本个案，计算了 S_h² = 125。我们对15个样本副教授做了同样的事情，得到 S_h² = 250。对于正教授，样本中的42人，他们的平均平方偏差 S_h² = 500。注意，随着工资水平的增加，方差也在增加。通常，抽样方差（或更好的度量是抽样标准差，即方差的平方根）与均值之间存在关系，在现实世界中这种情况并不少见。

所以，这里我们需要将所有内容结合起来。这有点超出我们当前的范围，但我还是要过一遍。我们需要知道 W_h²。我们知道 W_h，例如0.2875或0.1875。我们还需要知道每个层的抽样分数 f_h，以及 (1 - f_h)，例如1 - 0.2。我们需要 S_h² 和样本大小 n_h。如果把所有这些放在一起，虽然看起来有点复杂，但你现在应该知道其中的逻辑元素了。我真正关心的是你理解这种计算的逻辑，它源于如何为第一层选择样本并估计其均值的抽样方差。

最终结果，总的估计抽样方差是 3.453，它有三个组成部分（每个层贡献一个）：W_h²、(1 - f_h)、S_h² 和分母中的样本大小 n_h。这些表达式全部相加，合并后得到整体抽样方差 3.453。我们将取其平方根以获得标准误，用于构建置信区间。

我们刚刚完成了步骤6的A和B部分：A是计算每个层内的元素方差，B是用 W_h² 因子将它们组合起来，跨层相加。

还有最后一步，即步骤7：构建置信区间。这是我们表达估计值不确定性的方法，同时考虑了均值、标准误以及该均值的分布特性。在这种情况下，该均值将呈正态分布，我们将利用这一点来构建置信区间。

所以，我们的最后一步，步骤7，构建置信区间。我们将使用与之前相同的过程：均值加减误差幅度。但误差幅度由两个因素驱动：t值和标准误。我们将在这里使用t值，需要计算随机事件的数量并减去1。在这种情况下，我们在每个层内减去1，然后得到那个t值，用它乘以标准误来形成误差幅度，最后构建置信区间。

自由度是多少？我们的样本中有多少个随机事件？总共有80个。但在第一层有23个，并且在该层我们还计算了一个均值，这个均值改变了那里随机化的自由度数量。所以，我们实际上有 n_1 - 1 = 22 个来自第一层的自由度，n_2 - 1 = 14 个来自第二层的自由度，以及 n_3 - 1 = 41 个来自第三层的自由度。总体相加，我们有 80 - 3 = 77 个自由度。因此，我们查t值表，得到 t = 1.991（不是1.96）。我们使用t值是因为我们对每个 S_h² 的质量有一些不确定性。我们是在汇总每个 S_h² 的稳定性因子，将它们加在一起，并用它来选取t值。

因此，95%的置信区间取该t值乘以标准误，然后从均值中加减。你可以看到最终结果：我们的95%置信区间从 71.05 到 78.45。

好了，但还没完全结束。就像在整群抽样中一样，我们想知道这与简单随机抽样相比如何。所以，让我们通过讨论设计效应和有效样本量来总结一下。

当我们讨论抽样方差时，我们得到的方差 3.453 与相同样本量的简单随机样本会得到的方差相比如何？这就是设计效应 deff。对于简单随机样本，分母是我们现在缺少的。我们将把相同的数据当作一个简单随机样本来处理（尽管它实际上是来自分层随机样本的80个案例），并错误地计算均值方差的估计值。我们需要通过单独的计算来计算 S²。我们知道抽样分数 f，但不知道 S²。所以我们将取80个值计算 S²，这里是 647.8。

因此，对于一个来自400总体的、样本量为80的样本（抽样分数为0.2），在简单随机抽样下的均值抽样方差是 6.478。这就是我们要比较的分母。我们将实际的抽样方差 3.453 除以 6.478。现在，这与整群抽样相反。在按比例分配和我们案例中组间均值差异的特定情况下，我们得到了一个小于1的设计效应。通过在我们的抽样设计中使用辅助信息，我们实现了方差的降低。

事实上，这是一个相当大的降低，抽样方差减少了 47%。

让我们思考一下这47%的方差减少对我们的有效样本量意味着什么，就像我们对整群样本所做的那样。在那里，我们取实际样本量除以设计效应。所以这里我们取 80 除以 0.53，结果我们看到我们的样本有效容量相当于 150 个案例。我们实际上有80个，但由于通过按比例分配的分层随机抽样获得的效率增益，我们实际上得到了一个更大的有效样本，相当于增加了70个案例。方差减少了47%，但就有效样本量而言，我们获得了70个案例的改进，几乎使我们的总样本量翻倍。

或者，我们真正处理的是标准误。标准误的增益没有方差的增益那么大。我们的标准误获得了 27% 的增益。

这对我们来说是一个巨大的回报。这清楚地证明了我们在进行样本选择时应该进行分层。我总是建议进行分层。这是一种强烈的说法，但这就是为什么在实践中我不做简单的随机抽样。分层是直接且容易做到的。我总是会考虑它，并思考如何应用它，以便我能利用潜在的精度增益。

我们可以想象一个分布图，横轴是样本量增加，纵轴是标准误。我们看到，对于简单随机抽样，那条曲线是下降的（非线性）。随着样本量的增加，我们获得了精度增益。现在我们看到，如果我们进行正确的分配（并非所有分层样本都能给我们带来精度增益，正如我们将看到的），分层会使整个分布向下移动。

我们已经知道，整群抽样会使分布向上移动。所以，我们有了这两种相互抵消的力量。如果我们要进行整群抽样，我们最好对群进行分层，而不仅仅是对元素。这样，我们可以从分层中获得潜在的精度增益，而几乎总是从整群抽样中遭受精度损失。最后，我们稍后会讨论加权。在这里，我们实际上没有加权，每个层的权重效应相同。加权，正如我们将在第6单元看到的，除非它与我们研究的现象直接相关，否则会增加我们的方差。

本节课中我们一起学习了分层抽样的抽样方差计算、置信区间的构建以及设计效应的概念。理解了抽样方差的变化后，让我们在下一讲中回到分组问题，在扩展分层随机抽样的发展之前，先补充几个因素。我们将在本单元的第3讲中进行。

108：分组策略进阶 🧩

在本节课中，我们将深入探讨分层抽样中的分组策略。我们将学习如何使用多个变量进行分组，如何选择最佳的分层变量，以及如何处理多目的调查和子域估计等复杂情况。

上一节我们介绍了分层抽样的基本概念和分组方法。本节中，我们来看看如何通过更精细的分组策略来进一步提升抽样的效率和精度。

使用多个变量进行分层

在分组过程中，使用多个变量是可行且明智的。这类似于制作一个交叉表。例如，我们不仅可以根据教师的“职称”分组，还可以结合“性别”和“院系”来创建更精细的组别。

公式示例：
假设我们有两个分层变量：Rank（职称）和Sex（性别）。我们可以通过交叉分类来创建新的分层：

Strata = CrossTabulation(Rank, Sex)

这样，原本基于“职称”的3个组，就可以扩展为6个组（例如：女性助理教授、女性副教授、女性正教授、男性助理教授等）。

使用多个变量的核心目的是减少组内方差。当组内的个体特征越相似（同质性越高），组间的差异就越大，最终合并各组结果时，我们就能获得更高的估计精度。这就像在线性回归模型中添加更多的预测变量，每个变量都能帮助我们解释结果变量（如收入）的更多变异。

以下是使用多个变量进行分层和样本分配的示例步骤：

确定分层变量（如职称、性别）。
计算每个交叉分组的总体大小（N_h）和权重（W_h）。
根据总体比例，将总样本量（如80）按比例分配到各个组中。

如何选择分层变量

既然可以使用多个变量，那么应该如何选择最佳的分层变量呢？核心原则是：寻找能使组内同质性最大化、组间异质性最大化的变量。

换句话说，我们希望不同组之间的均值差异尽可能大。例如，我们知道不同性别和不同职称的教师收入存在显著差异。利用这些已知的社会结构现象，可以创建出均值差异明显的组别。

选择分层变量时，可以参考以下建议：

解释力强：选择那些对结果变量（如收入）方差解释力最强的变量。
数据可得：分层变量信息通常来自人口普查、行政记录或既往调查。
结合先验知识：利用我们对社会现象的理解（如不同院系的薪酬差异）来选择变量。
可合并小类：如果某些交叉分类的群体规模过小，可以将其与相邻类别合并，以确保每个层都有足够的样本量。

多目的调查中的分层

在实际调查中，我们很少只测量一个结果变量。一个全国性的家庭调查可能同时收集资产、健康、心理福祉等多方面信息。这种多目的调查使分层策略变得复杂。

一个好消息是，我们之前讨论的按比例分配的分层抽样方案，对于多目的调查中的绝大多数变量而言，通常都能带来精度的提升。因此，按比例分层是一个很好的起点策略。

子域估计与样本分配

有时，调查目标不仅包括总体估计，还需要为特定子群体（即“域”）提供独立的估计。例如，在加拿大，政府需要按月估计全国失业率，同时也需要为10个省份分别提供精确的失业率估计。

在这种情况下，简单的按比例分配可能行不通。如果某个省份人口很少（如沿海的海洋省份），按比例分配到的样本量会很小，无法产生可靠的省级估计。

解决方案是采用非比例分配。例如，加拿大劳动力调查可能会给每个省份分配相同的样本量（如每个省3000户），以确保所有省份都能获得同等精度的估计。这种为特定域进行估计的需求，深刻影响了我们最终的样本分配决策。

本节课中，我们一起学习了分层抽样中更高级的分组策略。我们了解到使用多个变量可以提升精度，选择变量应追求组间差异最大化，并且要考虑到多目的调查和子域估计对样本分配的特殊要求。

下一讲，我们将深入探讨样本分配问题，这是将分层抽样效率最大化的关键环节。

109：样本量分配 📊

在本节课中，我们将学习分层抽样中的一个核心环节：样本量分配。我们将重点探讨比例分配法，理解其原理、优势，并了解它如何作为评估其他分配方法的基础。

上一节我们介绍了分层抽样的基本概念和优势，本节中我们来看看如何将总样本量合理地分配到各个层中。

分层抽样的优势回顾

分层抽样方法具有多重优势。它提高了调查结果的可信度，因为样本在总体各层中的分布与总体本身一致，这更容易被接受。此外，通过合理的分配，我们还能获得更高的估计精度。分层抽样还能保证重要子域在样本中得到充分代表，并在管理和操作上提供灵活性。

然而，要充分实现这些优势，取决于我们对样本量分配的理解。

多种可能的分配方案

在我们之前的例子中，总体有400名教员，我们抽取了80人的样本。对于已划分的6个层，存在许多种分配样本量的可能性。

以下是几种可能的分配方案示例：

从第1至第5层各抽取1人，剩余的75人全部从第6层抽取。
从第1层抽取2人，从第2至第5层各抽取1人，剩余的74人从第6层抽取。

事实上，分配方案的数量非常多。不同的分配方案会对我们的总体估计产生不同影响：有些有益，有些则可能有害。某些分配在域估计时更有利，而另一些则在合并多个估计值时更有效。

比例分配法

我们之前使用的分配方法，与左下角图中美国各州人口规模分布的理念类似。加州人口占美国总人口的10%，德克萨斯、佛罗里达和纽约州也占相当比例，而其他州则很小。总体各层的规模（N_h）是客观存在且我们无法控制的，但我们可以利用这些辅助数据来提高精度。

我们采用的方法就是比例分配。这种分配方式有明确的理由：它确实能提高估计精度。具体做法是在每个层中抽取相同比例的个体。

比例分配的原理与性质

比例分配有一个很好的性质：我们为每个层设置的抽样比是相同的。抽样比 f_h 定义为层样本量 n_h 除以层总体大小 N_h。在比例分配下，每个层的 f_h 都等于总体的抽样比 f（即总样本量 n 除以总体大小 N）。

用公式表示即：
f_h = n_h / N_h = n / N = f （对于所有层 h）

当这种情况发生时，会伴随另一个结果：样本在各层中的分布比例与总体中的分布比例一致。也就是说，总体中某层的权重 W_h = N_h / N，等于样本中该层的权重 w_h = n_h / n。

例如，在我们的例子中，第1层有40人，占总体（400人）的10%（W_1 = 0.1）。总体抽样比为 80/400 = 0.2。将这个比率应用于第1层，我们得到样本量 40 * 0.2 = 8 人，恰好占样本总量（80人）的10%（w_1 = 0.1）。因此，样本分布复制了总体分布。

比例分配的优势

通过使样本在层间的分布与总体一致，这种设计能为我们关注的变量带来设计效应小于1的结果，即提高了估计精度。

这里需要强调一个教学上的要点（虽然并非绝对成立，但有助于理解）：如果我们采用比例分配法来设计一个多目标调查，那么几乎对所有调查变量，我们都能获得设计效应小于1的增益。 这是一个非常强大的特性。我们将会看到，其他分配方法可能在某个特定变量上胜过比例分配，但很难像比例分配这样，对几乎所有变量都普遍提升精度。

总结与展望

本节课中我们一起学习了样本量分配的基础，并深入探讨了比例分配法。我们了解到，比例分配通过在各层使用相同的抽样比，使得样本结构能够反映总体结构，从而普遍提升多变量估计的精度。它不仅是分层随机抽样中一种非常有用的方法，也是我们评估其他更复杂分配方案的基准。

下一讲（第4单元第5课），我们将以此为基础，探讨其他的样本量分配方法。

110：其他分配方法

在本节课中，我们将学习分层抽样中除比例分配之外的其他样本分配方法。我们将探讨等样本量分配、域估计的概念，以及不同分配方式对估计精度的影响。

等样本量分配

上一节我们介绍了比例分配，本节中我们来看看另一种分配方法：等样本量分配。这种方法旨在让每个层中的样本元素数量大致相等。

例如，在一个由400名教员组成的总体中，我们按性别和职称（助理教授、副教授、正教授）分为6层。如果我们希望总样本量为80，由于80不能被6整除，我们只能实现近似相等的分配，例如每层分配13或14个样本。这样分配的结果是，每个职称级别的样本量大致相等（27， 27， 26），男女性别样本量也各为40。

以下是等样本量分配的核心特点：

优点：为每个层（尤其是小规模群体）提供了更大的样本量，有利于进行层间的比较（例如比较不同职称或性别的平均收入）。当各层内方差相近时，等样本量分配能使比较差异的方差最小化。
缺点：当需要将各层数据合并以估计总体参数时，会产生权重问题。因为样本分布与总体分布不一致（例如，女性在总体中占20%，在样本中却占50%），需要对样本进行加权调整以反映总体结构。

域估计与分配选择

等样本量分配常与域估计的目标相结合。域估计是指为总体中的特定子群体（域）提供单独的估计值。

以加拿大的劳动力调查为例，该国10个省的人口分布极不均衡（例如安大略省占38%）。然而，调查采用了等样本量分配，每个省分配相同的样本量。这样做是为了确保每个省都能获得精度相当的估计值，这既是统计上的考虑，也有政治上的原因。

但是，当需要合并各省数据以生成全国估计值时，就必须对样本进行加权。例如，安大略省的样本代表性不足，其样本数据需要乘以一个大于1的权重因子（如3-4倍），才能正确反映其在总体中的比重。

因此，分配方法的选择取决于研究目的：

比例分配：适用于需要合并各层数据以估计总体参数的情况。
等样本量分配：适用于需要为各层（尤其是小层）提供独立、可比较的估计值，或进行层间比较的情况。
折中方案：在实际的多目标调查中，常采用比例分配和等样本量分配的混合形式。

最优分配及其影响

除了上述两种方法，还存在一种最优分配（或最小方差分配）。这种分配旨在最小化总体估计的方差，其公式考虑各层的规模（N_h）、层内方差（S_h^2）以及可能不同的调查成本（C_h）。

最优分配的样本量公式为：n_h ∝ (N_h * S_h) / sqrt(C_h)

然而，最优分配通常是针对单一调查变量计算的。对于多目标调查，不同变量的最优分配可能不同，因此其应用有限。它最适用于经济学、金融学等领域中分布高度偏斜的变量（如收入、财富）。

为了更直观地理解分配如何影响精度，我们来看一个简化的例子。假设卡塔尔总体有100万人，其中20%为本地人（层1），80%为外籍人士（层2）。已知两层的收入方差差异很大。

我们比较了从“向外籍层倾斜”到“向本地层倾斜”的6种不同分配方案（包括比例分配和等样本量分配），并计算了每种方案下总体均值的方差及其相对于简单随机抽样的设计效应。

结果发现：

某些分配（如方案1）的方差甚至高于简单随机抽样（设计效应>1），导致精度损失。
比例分配（方案2）带来了11%的精度增益（设计效应=0.89）。
存在一个最优分配（方案3，分配为40:800），其方差最小（设计效应=0.8）。
等样本量分配（方案4）的精度虽优于简单随机抽样，但并非最优。
过度向本地层倾斜的分配（方案5）会导致方差大幅增加。

这个例子清晰地表明，分配策略的选择直接影响估计精度，需要根据层内方差和总体结构谨慎决定。

从层权重到元素权重

我们目前讨论的加权是在层水平上进行的，即将各层的估计值按总体比例（W_h）合并。然而，实际的数据分析软件通常在元素水平上进行加权。

因此，为了使用标准统计软件分析分层随机样本，我们需要将层水平的权重转化为每个样本元素的个体权重。这将是本单元最后一讲的重点内容。

总结

本节课中我们一起学习了分层抽样中的多种样本分配方法。我们了解到，比例分配有利于总体估计，等样本量分配有利于子群比较或域估计，而最优分配能在特定条件下为单一变量提供最高精度。分配选择需权衡研究目的、精度要求和实际限制。最后，我们指出了将理论上的层权重转化为适用于软件分析的元素权重的必要性。

111：跨层权重整合 🔗

在本节中，我们将探讨分层随机抽样中的一个核心概念：权重。我们将了解如何通过权重将不同层（strata）的结果进行合并，并重点介绍软件在实际分析中如何处理权重——即元素级权重法。

上一节我们讨论了分层抽样中的分配与估计，本节中我们来看看如何通过权重整合各层结果，并理解软件实现的方式。

概述：权重的必要性

在调查抽样中，若样本在各层间的分配比例与总体中的实际比例不一致（即非比例分配），直接合并各层结果会产生偏差。权重的作用正是为了纠正这种偏差，使我们能够得出关于总体的有效结论。

两种权重方法

软件通常不直接使用我们之前描述的层权重法，而是采用元素级权重法。理解这两种方法及其等价性至关重要。

方法一：层权重法

这是我们之前讨论的方法。总体均值 Y_bar 通过加权各层均值 y_bar_h 来计算，权重为各层在总体中的相对大小 W_h。

其公式为：
Y_bar = Σ (W_h * y_bar_h)

然而，这种方法在软件中并不常用。要让软件执行此计算，需要为每个样本元素指定其所属的层，并额外提供每个层的 W_h 值。当层数很多时，这会非常繁琐。

方法二：元素级权重法

软件实际采用的方法是给每个样本元素赋予一个权重。这个权重是其所在层的抽样分数的倒数。

具体而言，对于层 h 中的每个元素，其权重 w_i 为：
w_i = N_h / n_h
其中，N_h 是该层的总体大小，n_h 是从该层抽取的样本量。N_h / n_h 即为抽样分数 (n_h / N_h) 的倒数。

计算总体均值时，我们将每个样本观测值 y_i 乘以其元素权重 w_i，求和后再除以所有权重的总和：

Y_bar = (Σ (w_i * y_i)) / (Σ w_i)

可以证明，通过这种元素级加权方法得到的结果，与使用层权重法得到的结果完全相同。

为何需要理解元素级权重

理解元素级权重至关重要，原因如下：

软件标准：主流统计软件（如R、Stata、SPSS）在分析复杂调查数据时，普遍要求提供元素级权重变量。
通用性：元素级权重法不仅能处理分层抽样中的非比例分配，也适用于后续单元将讨论的更多复杂情况（如无回答加权调整、事后分层等）。
实践准备：作为数据分析者，我们需要准备好以软件期望的方式组织和提供数据。

总结与过渡

本节课我们一起学习了分层抽样中整合结果的两种权重方法：层权重法和元素级权重法。我们了解到，尽管层权重法在概念上直观，但软件在实际操作中普遍采用元素级权重法，即给每个样本元素赋予其所在层抽样分数倒数的权重，两者计算结果等价。

在深入探讨更复杂的加权问题（这将是第6单元的主题之一）之前，我们将在第5单元先学习另一种实用的抽样设计：系统抽样。它是一种简化的随机抽样方法，在处理具有顺序排列的抽样框时非常高效。接下来，我们将讨论其选择机制、列表顺序的影响、抽样间隔以及如何估计其标准误。

112：系统抽样法 📊

在本节课中，我们将学习一种简化的抽样方法——系统抽样法。我们将了解其基本操作流程、核心概念以及在实际应用中需要注意的关键点。

概述

在上一单元，我们讨论了抽样技术的复杂性。本节我们将介绍一种简化选择过程的方法：系统抽样法。这种方法通过从列表中规律性地选取元素来获取样本，操作简单，但背后有其特定的统计原理。

系统抽样过程

系统抽样是一种从列表中抽取样本的简单方法，即每隔固定数量的元素抽取一个。

假设我们有一个由交易记录构成的总体，例如信用卡账单。每条记录包含日期、时间、交易类别、子类别、信用卡信息和金额。虽然我们拥有所有记录，但可能仍需要抽取一个样本。例如，我们可能想通过电话访问持卡人，询问未记录在账单上的交易细节或其他消费信息，这就需要额外的调查数据收集。

我们可以用多种方式抽取样本。首先，可以从第一个元素开始，然后每隔10个元素抽取一个。这就是系统抽样，一种简单的计数方法。

初始方法的局限性与改进

然而，上述简单方法存在明显问题。假设列表共有 N=1000 个元素，而我们只需要 n=50 个样本。如果从第一个元素开始，每隔10个抽取一个，那么抽取50次后，最后一个被选中的元素将是第501号。这意味着第502至1000号元素完全没有被选中的机会。同样，由于从第一个开始，第2至10号、第12至20号等元素也永远不会被选中。

这种方法无法让样本均匀分布在整个列表中。如果列表前半部分和后半部分的交易存在差异，我们将完全错过后半部分的信息。因此，我们需要改进方法，使样本能够覆盖整个总体。

我们需要做两处关键改进：

调整抽样间隔：根据总体大小和所需样本量计算间隔，而不是随意选择一个方便的间隔（如10）。
随机化起始点：不要总是从第一个元素开始，而应从一个随机位置开始。

以下是具体的改进步骤：

首先，计算抽样间隔 K。公式为：
K = N / n
在本例中，K = 1000 / 50 = 20。这意味着我们应该每隔20个元素抽取一个。

其次，随机选择一个起始点。这个起始点应在 1 到 K（即1到20）之间随机产生。假设通过随机数生成器，我们得到的起始点是4。

那么，我们的样本将由以下元素构成：第4号、第24号（4+20）、第44号（24+20）……依此类推，直到抽满50个样本。这样，样本就能相对均匀地分布在整个1000个元素的列表中。

系统抽样的本质：整群抽样

从概念上看，系统抽样等价于一种特殊的整群抽样。

我们可以将总体列表想象成被分成了 K 个（本例为20个）大小相等的“群”。每个“群”包含 n 个元素（本例为50个），但分群的方式是系统的：

第一个“群”包含元素：1, 21, 41, 61, ...
第二个“群”包含元素：2, 22, 42, 62, ...
……
第二十个“群”包含元素：20, 40, 60, 80, ...

当我们随机选择一个1到20之间的起始点时，实际上就是随机选择了这20个“群”中的一个，并将该“群”的所有元素作为我们的样本。因此，每个可能的系统样本（即每个“群”）就是一个“集群”，其内的元素总是被一起选中。

总结

本节课我们一起学习了系统抽样法。我们了解到，基本的系统抽样是从列表中规律性选取元素。为了确保样本覆盖整个总体且具有随机性，我们必须进行两项关键改进：根据总体和样本量计算抽样间隔K，并在1到K的范围内随机选择起始点。最后，我们从整群抽样的视角理解了系统抽样的本质，即每个可能的系统样本可被视为一个大小相等的“集群”。

在下一讲中，我们将探讨一个实际问题：当计算出的抽样间隔 K 不是整数（例如20.57）时，我们应该如何处理。这将帮助我们更深入地理解系统抽样的实际应用。

113：分数间隔处理（上）📊

在本节课中，我们将要学习系统抽样中的一个具体问题：当抽样间隔（K）的计算结果不是整数，而是带有小数时，应如何处理。我们将首先明确问题所在，然后探讨两种初步的解决方案：四舍五入法和循环列表法。

问题概述

在上一节中，我们介绍了系统抽样的基本原理和操作步骤。其核心流程是：首先计算抽样间隔 K = N / n，其中 N 是总体大小，n 是样本大小；然后从 1 到 K 中随机选择一个起点；最后，通过不断累加 K 来选取后续样本。

然而，当 N 无法被 n 整除时，K 将是一个小数。例如，总体 N=9，样本 n=2，则 K = 9 / 2 = 4.5。这带来了一个实际问题：我们无法在列表中“每隔4.5个”单位进行抽样。

解决方案一：四舍五入法

最直观的解决方案是将小数间隔 K 四舍五入为一个整数 K*。但这种方法会带来两个主要问题。

以下是四舍五入法操作步骤：

计算理论间隔 K = N / n。
将 K 四舍五入（可以向上取整、向下取整或按常规规则）为整数 K*。
从 1 到 K* 中随机选择一个起点 r。
依次选取编号为 r, r+K*, r+2K*, ... 的元素，直到超出列表范围。

问题分析：

样本量不固定：最终的样本量会因随机起点 r 的不同而在 n 附近波动（通常是多一个或少一个）。
无法精确达到目标样本量：即使取平均值，最终样本量也可能与计划的 n 有出入。

举例说明：
假设 N=9, n=2，则 K=4.5。

若取 K* = 4（向下取整）：
- 随机起点 r=1，则样本为第 1, 5, 9 号元素，共3个。
- 随机起点 r=2，则样本为第 2, 6 号元素，共2个。
若取 K* = 5（向上取整）：
- 随机起点 r=1，则样本为第 1, 6 号元素，共2个。
- 随机起点 r=5，则样本仅为第 5 号元素，共1个。

由此可见，四舍五入法虽然简单，但会导致样本量不稳定。如果研究对预算或样本量有严格要求，这就不是一个理想的方案。

解决方案二：循环列表法

为了解决样本量不固定的问题，我们可以采用“循环列表”法。想象列表首尾相连，形成一个环（如同钟表表盘）。

以下是循环列表法操作步骤：

计算理论间隔 K，并将其四舍五入为整数 K*（通常向下取整）。
随机起点 r 不再局限于 1 到 K*，而是可以从列表中的任何位置（即 1 到 N）随机选取。
从起点 r 开始，每次累加 K* 选取样本。
当选取的编号超过列表末尾 N 时，则“绕回”列表开头继续计数，直到抽满 n 个样本为止。

举例说明：
假设 N=12, n=5，则 K = 12 / 5 = 2.4。我们向下取整，令 K* = 2。
随机起点 r = 7。

第一个样本：7
第二个样本：7 + 2 = 9
第三个样本：9 + 2 = 11
第四个样本：11 + 2 = 13（超过12）。我们绕回开头：13 - 12 = 1
第五个样本：1 + 2 = 3
最终样本为：7, 9, 11, 1, 3，正好5个元素。

这种方法确保了无论随机起点如何，最终都能获得精确的样本量 n。它的缺点在于，列表被视作一个环，理论上第一个和最后一个元素在概率上“相邻”了，这有时在逻辑上可能显得不自然。

本节总结

本节课我们一起探讨了系统抽样中遇到分数间隔时的挑战。我们分析了两种初步的解决方案：

四舍五入法：简单直接，但会导致样本量不固定，可能无法满足精确的样本量要求。
循环列表法：通过将列表视为环形，并从任意点开始抽样，确保了固定的样本量，但改变了列表首尾的逻辑关系。

这两种方法各有优劣，适用于不同的场景。在下一节中，我们将继续探讨第三种更精确的解决方案——分数间隔法，它能在保持样本量固定的同时，避免循环列表法的逻辑问题。

114：分数间隔处理（下）📊

在本节课中，我们将继续学习系统抽样中处理分数间隔的第三种方法。我们将详细探讨如何直接使用分数间隔进行抽样，并理解其背后的概率原理。

系统抽样的核心要素

上一节我们介绍了系统抽样依赖于两个设计特征：间隔和随机起点。这两个要素共同作用。随机起点可以在1到间隔之间，也可以根据所采用的系统抽样技术，在列表上的任何位置选取。

我们一直在探讨当抽样间隔包含小数部分（即分数部分）时的处理方法。

直接使用分数间隔法

本节我们将继续探讨分数间隔，重点介绍第三种处理方法：直接使用分数间隔。这是我们将讨论的三种系统抽样方法中的第三种。

这种方法要求我们既要掌握一种技术，又要深入理解该技术的工作原理。我们将直接使用分数部分，而不是在计算间隔时将其舍入。实际上，我们将利用它来确定选择哪些元素。

假设我们有一个包含23个元素的总体，要抽取一个大小为5的样本。那么，我们的间隔将是 23 / 5 = 4.6。

现在，我们需要选择一个随机起点。注意，我们不会对这个间隔进行四舍五入，并且选择的随机起点将包含小数。因此，随机起点可以是0.1、0.2、0.3或0.4等。这听起来可能有些奇怪：当没有第0.4个元素时，我们怎么能以0.4开始呢？我们将需要进行一些舍入，但舍入操作是在我们计算出选择序列之后进行的。在进行任何舍入之前，我们会在计算选择序列时包含分数部分。我们只是将舍入操作从间隔转移到了选择序列上。

确定随机起点

首先，我们需要从一个随机数表中，选择一个介于0.1到4.6之间的随机数。我们需要创造性地思考一下：我们的随机数表通常不包含小数点，但这没关系。我们感兴趣的是任何从0.1到4.6的数字，我们将在两位数字之间插入小数点。我们需要一个两位数，范围从01到46，然后插入小数点。

假设我们选择的数字是35。插入小数点后，我们得到一个分数间隔的随机起点：3.5。

如果我们没有随机数表怎么办？我们可以回到生成均匀随机数的系统，即使用软件包生成0到1之间的随机数。在本例中，假设我们生成的均匀随机数是 0.76087。这显然不是我们需要的起点。我们需要一个介于0.1到4.6之间的随机数，而不是0到1。我们可以简单地将我们已有的间隔 4.6 乘以这个随机起点 0.76087，得到 3.5。这就是我们的随机起点。

因此，无论是从随机数表中查找（隐含小数点），还是使用生成器生成0到1之间的均匀分布随机数再乘以间隔，我们都能得到抽样过程的随机起点。

进行系统计数与选择

接下来，我们继续进行系统计数。但这次不是按整数（如4、10、15、37）计数，而是按实际的间隔 4.6 计数。

第一个选择：从 3.5 开始。
第二个选择：3.5 + 4.6 = 8.1
第三个选择：8.1 + 4.6 = 12.7
第四个选择：12.7 + 4.6 = 17.3
第五个选择：17.3 + 4.6 = 21.9

再进行一次加法：21.9 + 4.6 = 26.5，这已经超出了我们列表的23个元素。因此，我们抽取过头了。我们的五个选择就是超出列表范围之前得到的那些数字：3.5, 8.1, 12.7, 17.3, 21.9。

现在，我们仍然有这些小数。此时我们需要对它们进行舍入。从概率角度看，一个简单且可接受的舍入方法是截断，即直接去掉小数部分，这是一种舍入形式。

通常的舍入规则是根据小数部分是否大于等于0.5来决定向上或向下舍入。但在这里，我们只需简单地去掉每个数字的小数部分。因此，我们的选择变为：3, 8, 12, 17, 21。

观察与特性

现在我们得到了选择：3, 8, 12, 17, 21。注意它们之间的间隔：

从3到8，间隔是5。
从8到12，间隔是4。
从12到17，间隔是5。
从17到21，间隔是4。

我们的间隔在变化。这取决于实际发生的舍入，实际上是 4.6 的小数部分累积的结果。有时它导致间隔增加5，有时导致间隔为4。对于所有可能的随机起点，间隔都会变化。

当我们取所有选择之间的间隔并计算平均值时，这个平均值将正好是 4.6。

概率均等性验证

这似乎是一个合理的解决方案，但有点令人困惑。这里真正重要的是：列表中的每个元素是否具有相同的权重，即相同的被选中概率？

我们可以逆向验证。例如，元素1被选中的唯一方式是随机起点在 1.0 到 1.9 之间（即10到19）。这里有10个可能的随机起点。总共有46个可能的随机起点（从0.1到4.6）。因此，元素1被选中的概率是 10 / 46，即 1 / 4.6。

非常重要的一点是：1 / 间隔。间隔实际上是抽样率的倒数。 因此，我们的抽样率是 1 / 4.6。在抽样领域中，我们经常这样表述：我们知道可以通过分数间隔法来实现这个确切的抽样率。

对于元素2、3等，情况相同，每个元素都恰好有10个随机起点能选中它。对于元素4，它可以通过两种方式进入样本：作为第一个选择（随机起点为 4.0 到 4.6），或者作为后续选择（随机起点为 0.1, 0.2, 0.3 时，加上间隔并截断后得到4）。但总共也只有10种情况能生成元素4，概率相同。对于元素5，它可能作为第一个或第二个选择被选中，但总概率仍然相同。

这看起来可能有些复杂，但在概率上没有问题。每个元素被选中的概率都是 1 / 4.6。

方法总结与后续主题

因此，这种直接使用分数间隔的方法是等概率的，并且是处理分数间隔系统抽样时非常广泛使用的技术。

当然，还有其他一些处理分数间隔的技术，但它们超出了当前范围，使用频率不高，仅在特定情况下或个人偏好时使用。

我们需要转向系统抽样的另一个主题：如果底层列表本身具有某种顺序，会发生什么？这种顺序对我们得到的样本类型有何影响？我们将在下一次讲座中讨论几种不同的列表顺序及其对样本的影响。

本节课总结

本节课中，我们一起学习了系统抽样中处理分数间隔的第三种方法——直接使用分数间隔法。我们掌握了其操作步骤：计算分数间隔、生成包含小数的随机起点、进行分数间隔的系统计数、最后对得到的序列进行截断舍入。更重要的是，我们理解了这种方法能保证每个元素具有相同的被选中概率，即 1 / 间隔，从而实现了等概率抽样。下一讲，我们将探讨列表顺序对系统抽样的影响。

115：系统抽样（三）：列表顺序的影响 📊

在本节课中，我们将探讨系统抽样中一个关键但常被忽视的方面：抽样列表的排列顺序。列表顺序与系统抽样方法的结合，会直接影响样本的性质和抽样精度。我们将分析几种常见的列表顺序类型及其影响。

上一节我们讨论了如何处理分数间隔等实际问题，本节中我们来看看列表顺序如何与系统抽样相互作用。

列表顺序与抽样结果的关联

列表顺序，结合系统选择过程，会产生可能意想不到的结果。这种组合决定了我们最终得到的样本类型。

以下是几种主要的列表顺序类型及其影响：

1. 随机顺序列表

如果列表顺序是随机的，那么对其进行系统抽样，本质上等同于简单随机抽样。

实现方法：可以预先为列表中的每个个案分配一个0到1之间的随机数，然后按此随机数对列表进行排序。此时列表处于随机顺序。

核心概念：

排序过程：列表.sort(key=随机数)
抽样结果：系统抽样 ≈ 简单随机抽样

例如，在我们的交易记录列表中，如果交易按发生时间顺序记录，且交易时间与交易金额无关，那么该列表相对于“金额”这个研究变量而言就是随机顺序的。从这样的列表中系统抽样，效果等同于简单随机抽样。

2. 分层顺序列表

我们可以通过预先操作，使列表顺序对应于案例的某些类别。这能让我们在抽样时，隐含地实现分层抽样。

操作方式：例如，将列表按“性别”排序，所有女性教职员在前，男性教职员在后。然后对整个排序后的列表应用系统抽样（使用同一个随机起点和固定间隔）。这样，我们从女性群体和男性群体中抽取的样本量，将精确地与其在总体中的比例成比例。

核心概念：这被称为 “隐含分层”。我们无需显式地划分层并计算每层的分配样本量，排序和系统抽样过程自动为我们完成了按比例分配的分层抽样。

更复杂的排序：我们还可以进行双重排序，例如先按“行业类别”排序，再在每个类别内按“子类别”排序。这样，系统抽样就能隐含地实现基于两个变量的分层，如果研究变量（如交易金额）与这些类别相关，将能有效提高抽样精度。

分配特点：即使某组（层）的理论样本量是小数（如10.2），系统抽样也能实现真正的按比例分配——大约20%的随机起点会从该组抽到11个样本，80%的随机起点会抽到10个样本。

3. 蛇形顺序列表

这种顺序在地理抽样中尤为常见。例如，对一个区域的街区进行编号时，采用“蛇形”顺序（从左到右，下一行从右到左，依此类推）。

应用场景：假设一个社区有35个街区，按蛇形顺序编号为1到35。如果我们要从中系统抽取5个街区（间隔为7），无论随机起点是几，抽出的样本都能在地理上均匀地覆盖整个区域，包括社区的老区和新区分。

优势：这种顺序能确保样本在地理空间上具有良好的分布，如果研究变量（如居民收入、房屋价值）与地理位置相关，蛇形排序结合系统抽样就能隐含地实现地理分层，提高样本代表性。

4. 线性趋势顺序列表

当列表按研究变量的值单调递增或递减排列时，就形成了线性趋势顺序。

潜在担忧：有人担心，如果随机起点恰好落在列表前端（低值区）或后端（高值区），会导致样本均值系统性偏低或偏高。

实际影响：尽管存在上述担忧，但从抽样分布的角度看，线性趋势顺序下的系统抽样通常能带来显著的精度提升，其样本均值的方差非常小。这与某些分层抽样的效果类似。线性趋势本质上是一个有利特征。当然，在实践中若遇到强线性趋势，可以考虑使用多个随机起点等更复杂的设计来规避潜在风险。

5. 周期性顺序列表

当列表顺序呈现出周期性波动时（例如，数值高低交替出现），就需要特别警惕。

主要风险：如果抽样间隔恰好与波动周期相同或成倍数关系，样本可能会全部集中在高值点或低值点，导致严重的估计偏差。

结论：周期性是系统抽样中需要尽力避免的问题。一旦怀疑列表存在周期性，通常不应采用系统抽样方法。

总结与核心要点

本节课我们一起学习了列表顺序对系统抽样的重要影响。

列表顺序是系统抽样的关键组成部分：它并非中性，而是与抽样方法结合，共同定义了最终样本的性质。
顺序类型决定抽样效果：
- 随机顺序产生简单随机样本。
- 分层/蛇形顺序能实现隐含分层抽样，带来精度增益。
- 线性趋势顺序通常能提高精度，但需注意潜在偏差。
- 周期性顺序是危险信号，应避免使用系统抽样。
顺序的来源：顺序可能是列表固有的，需要我们识别；也可能是基于我们拥有的辅助变量（如性别、地区）主动排序施加的。
核心收益：通过利用或创造有利的列表顺序（如分层顺序），系统抽样可以便捷地获得与按比例分配分层抽样相当的精度提升，而无需复杂的层划分与样本量分配计算。

然而，这种隐含的分层也带来了一个挑战：我们如何估计此类样本的抽样方差？如何量化所获得的精度增益？这将是本单元下一讲，也是系统抽样部分的最后一个主题——系统抽样下方差的估计。

116：系统抽样的不确定性估计 📊

在本节课中，我们将学习如何为系统抽样方法估计不确定性。之前我们讨论了简单随机抽样、分层随机抽样和整群抽样，并介绍了如何在这些框架下计算标准误。这个过程通常包括从总体到抽样框、再到样本和估计值的七个步骤，以及抽样分布、从数据估计标准误和构建置信区间。对于系统抽样，我们也需要做同样的事情，但其不确定性估计的方法建立在其他抽样技术的基础之上。

多重随机起点法 🔄

上一节我们介绍了系统抽样的基本概念，本节中我们来看看如何估计其不确定性。当我们只有一个随机起点时，从技术上讲，我们无法估计方差，因为这相当于从一个由K个群组成的总体中只抽取了一个群（这里的K就是我们的抽样间隔）。每个起点都对应一个固定的样本集合。

为了解决这个问题，一种方法是使用多重随机起点。这会使操作变得复杂，但能让我们获得抽样分布的多个元素，从而计算抽样方差。

以下是多重随机起点法的基本思路：

我们不再使用一个从1到K的随机起点，而是使用C个（例如2个、3个或10个）随机起点，并抽取C个样本。
计算总体均值时，我们可以将所有C个样本的观测值相加，再除以总样本量（每个起点的样本量乘以C）。
我们也可以先计算每个随机起点样本的均值，然后再对这些均值求平均。
抽样方差的估计公式基于每个起点样本的均值与总体均值之间的差异。

使用的随机起点越多，设计越复杂，但方差的估计也越稳定。不过，自由度取决于随机起点的数量（C）。如果C仅为2，则自由度仅为1，在构建置信区间时需要非常大的t值。

基于列表顺序的模型假设法 📝

除了使用多重随机起点来复制抽样分布，还有另一种更广泛的方法。我们只使用一个随机起点，然后提出一个问题：列表中的元素顺序与我们感兴趣的变量特征之间是否存在关联？

情况一：列表顺序随机
如果我们没有理由相信列表顺序与变量特征之间存在关联（可能是因为我们故意打乱了列表顺序，或者有充分理由相信底层列表顺序与变量完全无关），那么系统抽样实质上等同于简单随机抽样。

在这种情况下，我们可以使用简单随机抽样的方差公式来估计方差。我们将样本量n视为简单随机样本的样本量，并应用相应的公式。这基于一个明确的模型假设。

情况二：列表顺序存在分层
现在，假设列表顺序与我们的变量相关。例如，由于列表中某些辅助变量的分类排序，可能存在均值较高的组，后跟均值较低的组，以此类推。在这种情况下，系统抽样实质上等同于分层随机抽样，我们从每一层（或每一“行”）中抽取了一个元素。

如果愿意假设每一行内部是随机排序的，但行与行之间的均值不同，我们就可以使用分层随机抽样的公式来计算方差。这通常适用于列表按离散类别排序的情况。

情况三：列表顺序连续
有时，排序不是离散的，而是更连续的（例如蛇形排序）。很难划定明确的分层边界。在这种情况下，我们可以使用配对差异法。

这种方法将相邻的两行（即连续的两个被抽中元素）配对。例如，第一个与第二个配对，第三个与第四个配对，依此类推。然后，使用配对差异的公式来估计方差。这反映了列表潜在的隐含分层结构。

计算示例 🧮

让我们通过一个简单的例子来理解这些计算。假设我们从一个包含60个街区的列表中，系统抽取了6个街区作为样本。我们收集了每个街区的租赁单元数量数据。

样本数据如下：

样本索引	租赁单元数
1	23
2	21
3	42
4	0
5	16
6	37

样本均值 Y_bar = (23+21+42+0+16+37) / 6 = 23.83

1. 假设列表顺序随机（使用简单随机抽样公式）

有限总体校正因子 fpc = 1 - (6/60) = 0.9
计算样本方差 S²
抽样方差 Var(Y_bar)_srs = fpc * (S² / n)
根据计算，得到抽样方差约为 34.0，标准误约为 5.83。

2. 假设列表顺序连续（使用配对差异法）

有限总体校正因子 fpc 同样为 0.9。
将样本配对：(1,2), (3,4), (5,6)
计算配对差异的平方和：(23-21)² + (42-0)² + (16-37)² = 4 + 1764 + 441 = 2209
配对差异方差估计公式：Var(Y_bar)_paired = fpc * (1 / n²) * (Σ 配对差异² / 配对组数)
代入计算：0.9 * (1/36) * (2209 / 3) ≈ 55.2
标准误约为 7.43。

可以看到，在不同的模型假设下，我们得到的标准误估计值不同。重要的是，我们不能为了得到最小的标准误而尝试多种方法并选择结果最好的那个，这类似于在回归分析中过度拟合。我们应该基于对列表顺序和变量关系的理解和假设，明确选择一个模型，并据此计算方差和标准误。

总结与下节预告 🎯

本节课中，我们一起学习了为系统抽样估计不确定性的几种方法：

多重随机起点法：通过复制抽样分布来直接估计方差。
基于模型假设法：根据列表顺序与目标变量的关系，选择不同的方差估计模型：
- 简单随机抽样模型：假设列表顺序随机。
- 分层随机抽样模型：假设列表按离散类别分层排序。
- 配对差异模型：假设列表存在连续排序。

不确定性估计的核心是计算标准误和方差，我们需要根据实际情况和假设，选择上述四种技术之一应用于数据，从而获得标准误并构建置信区间。

好的，关于系统抽样的内容我们就讲到这里。在下一个也是最后一个单元中，我们将探讨一些扩展和应用，包括：

加权：结合分层抽样中的不等概率抽样以及针对无回答和无覆盖的加权，得到最终权重。
分层整群抽样：将分层和整群两种技术结合，并讨论其方差估计及相应软件。
抽样软件：简要介绍用于抽样的软件及其操作。
网络抽样：当处理网络（如社交网络）时，如何抽样元素或节点，并介绍一种称为“多重性抽样”的技术。

敬请期待我们的收官单元《扩展与应用》，共同完成本次关于对人员、记录和网络进行抽样的课程。谢谢。

117：抽样统计软件 📊

在本节课中，我们将学习如何使用统计软件进行样本选择。我们将以一个具体的普查街区数据框为例，演示在R统计系统中实现四种基本抽样设计的过程。通过本课，你将了解将数据导入软件、执行抽样命令以及提取样本结果的基本流程。

数据框与抽样目标

我们使用的数据框包含975个普查街区（即总体元素）。每个街区记录了三个变量：一个序列号、租户自住住房单元数量和业主自住住房单元数量。我们的目标是从这个总体中抽取一个大小为20的样本，抽样比约为1/48.75。

以下是数据框前30行的示例，展示了基本的所有权和租赁信息：

序列号	租户自住数	业主自住数
1	12	23
2	5	18
3	0	45
...	...	...

你无需仔细查看所有细节，只需知道我们将从这个具体的列表中抽取样本。

软件准备步骤

在使用任何统计软件进行抽样前，都需要完成一些数据准备步骤。在R系统中，这个过程通常包括以下几步。

以下是准备工作的核心步骤：

设置工作目录：使用 setwd() 函数指定数据文件在计算机上的存储路径。
读取数据：使用 read.table() 函数将数据文件读入R环境，并存储为一个数据对象（例如命名为 frame）。需要指定文件路径、是否包含表头以及列分隔符（本例中为制表符）。
检查数据：使用 View(frame) 或 head(frame) 等命令查看数据对象，确保975个案例和3个变量都已正确导入，没有数据损坏。

完成这些步骤后，数据框就准备好用于抽样了。

加载抽样程序包

R系统通过“程序包”来扩展功能，不同的程序包提供不同的专用命令。对于抽样任务，有一个非常实用的程序包叫做 sampling。

我们需要使用 library(sampling) 命令来加载这个程序包。这样，R系统就能识别并使用该程序包内建的各种抽样函数了。

实施四种抽样设计

上一节我们准备好了数据和工具，本节中我们来看看如何具体实施四种不同的抽样设计。我们将使用同一个数据框和相同的样本量（n=20），分别进行不放回简单随机抽样、放回简单随机抽样、系统抽样以及与规模大小成比例的概率抽样。

以下是每种设计的实现方法：

1. 不放回简单随机抽样

命令：Sam.SRSWOR <- SRSWOR(N=975, n=20)
过程：该命令会生成一个长度为975的指示向量 Sam.SRSWOR，其中20个位置标记为1（表示被选中），其余为0。
提取样本：使用 which(Sam.SRSWOR == 1) 函数识别被选中的行号，然后从 frame 数据框中提取这些行，即可得到最终的20个样本案例。

2. 放回简单随机抽样

命令：Sam.SRSWR <- SRSWR(N=975, n=20)
区别：此时生成的指示向量中，值可能为0、1、2...，因为同一个案例可能被抽中多次。例如，值2表示该案例被抽中了两次。
提取样本：使用 which(Sam.SRSWR >= 1) 来识别所有被抽中至少一次的案例。如果需要记录重复次数，还需将重复因子合并到样本数据中。

3. 系统抽样

准备：首先创建一个包含每个单元入样概率（πi = 20/975）的向量 prob.sys。
命令：使用 UPsystematic(pik=prob.sys) 函数进行系统抽样，结果存入 Sam.sys 对象。
提取样本：方法与之前相同，使用 which(Sam.sys == 1) 从 frame 中提取样本案例。系统抽样的间隔约为48.75，因此样本案例间的间隔会在48和49之间变化。

4. 与规模大小成比例的概率抽样

命令：例如使用 UPbrewer(pik=prob.pps)，其中概率 prob.pps 与每个街区的“业主自住住房单元数量”成比例。
注意：由于有些街区的业主自住数为0，计算出的入样概率也为0，软件会给出警告。这是正常现象，说明这些街区没有机会被抽中。
提取样本：流程与上述方法一致，生成指示向量后，再从其对应的数据框中提取样本案例。

总结与展望

本节课我们一起学习了使用统计软件（以R为例）进行样本选择的基本流程。我们了解了从数据准备、加载程序包到执行具体抽样命令（包括不放回/放回简单随机抽样、系统抽样和PPS抽样）的完整步骤。关键在于理解软件首先生成一个抽样指示向量，然后再根据这个向量从原始数据框中提取出最终的样本案例。

掌握利用软件抽样可以大大提高效率，避免手动抽样的繁琐和错误。在 sampling 这样的程序包中，还包含我们未涵盖的数十种其他抽样技术。

在接下来的讲座中，我们将探讨如何组合不同的抽样技术，例如将分层与整群抽样结合，进行分层多阶段抽样。

118：分层多阶段抽样 🏘️➡️🏠

在本节课中，我们将学习如何将之前介绍过的多种抽样技术结合起来，以应对更复杂的抽样框。我们将重点探讨分层多阶段抽样，它结合了随机化、分层以及多级整群抽样的思想，旨在解决没有完整抽样框列表以及降低抽样成本的问题。

核心概念与流程概述

分层多阶段抽样是一种复杂的抽样设计，它通过多个阶段逐步缩小抽样范围。其核心思想是：

分层：将总体划分为内部同质的组（层），以确保样本的代表性并可能提高精度。
多阶段整群抽样：在每一阶段，随机抽取“群”（如地理区域），然后在被抽中的群内进行下一阶段的抽样，直至抽到最终的分析单元（如个人）。
随机化：在每一阶段的抽样中，都采用随机选择方法。

这种设计的通用流程可以表示为：
第一阶段：将总体划分为层 → 从每层中随机抽取初级抽样单元。
第二阶段：在被抽中的初级抽样单元内，随机抽取二级抽样单元。
后续阶段：可继续此过程，直至抽到最终的分析单元。

接下来，我们将以在美国抽取住房单元样本为例，详细讲解每个步骤。

第一阶段：选择与分层初级抽样单元

上一节我们回顾了基本的抽样技术。本节中，我们来看看如何构建一个多阶段抽样设计。第一步是确定并分层处理初级抽样单元。

初级抽样单元 是抽样设计的第一级单位，通常是较大的地理或行政区域。在美国的案例中，我们使用县作为初级抽样单元。美国有超过3000个县，它们在面积和人口规模上差异巨大。
对PSU进行分层：与对元素分层类似，我们对这些县（即“群”）进行分层。分层的依据是县的集群特征，例如：
- 城市化程度（城市/农村）
- 失业率高低
- 住房自有率
- 其他相关社会经济指标
  目标是让同一层内的县尽可能相似（同质），不同层间的县尽可能不同（异质）。分层能确保样本覆盖所有重要类型，并可能降低抽样方差。

以下是分层的一种可视化方式，例如将县按大都市区规模分层：

层内抽样：分层完成后，我们需要决定从每层中抽取多少个县（即样本量分配）。可以采用比例分配、等量分配等方法。然后，在每层内随机抽取指定数量的县。

在实际操作中，我们常将初级抽样单元按地理顺序排列，然后进行系统抽样。这能在已分好的大层内，实现隐性的地理分层，进一步增强样本的地理代表性。

第二阶段：选择二级抽样单元

在抽选了县级初级抽样单元后，我们通常还不能直接列出所有住房单元，因为一个县可能包含成千上万个住房单元，全部列出的成本过高。因此，我们需要引入第二级抽样单元。

在被抽中的每个县内，我们需要选择更小的地理区域进行下一步操作。常见的二级抽样单元有：

人口普查区：类似于“街区”的较大区域，通常包含数千个住房单元，边界明确（如道路）。
人口普查块：比普查区更小的地理单位，覆盖所有土地面积，包含的住房单元数更少。

选择依据主要是实际操作成本（如旅行、列表成本）。在案例中，由于人口普查块覆盖全面且单元数适中，我们选择直接以人口普查块作为二级抽样单元。

我们可以获得所有块的列表，其中包含块编号和住房单元数量（可作为“规模度量”）。然后，在每个被抽中的县内，我们从这个列表中随机抽取一定数量的块。

最终阶段：列出并选择住房单元

现在，我们到达了被抽中的人口普查块。这一阶段的目标是获得一个可管理的住房单元列表，并从中抽取最终样本。

由于可能没有现成的商业或政府住房列表，调查人员需要实地走访被抽中的块，绘制草图并列出所有住房单元的地址。这个列表是按地理顺序（如顺时针方向）创建的。

列表创建后，我们使用系统抽样从这个有序列表中抽取最终的住房单元样本。这种按地理顺序列表进行的系统抽样，再次提供了隐性的地理分层。

注意：住房单元本身可能还不是最终的分析元素。如果目标是调查“个人”，我们可能还需要在抽中的住房单元内，再进行一次抽样（例如，随机选择一名成年人），这构成了可能的第四阶段。

估计与总结

本节课我们一起学习了分层多阶段抽样的设计与执行步骤。这种设计通过结合分层、多阶段整群抽样和随机化，有效解决了大规模调查中缺乏完整列表和成本高昂的问题。

关于从这种复杂样本中进行统计估计（如计算均值、比例及其抽样方差、置信区间），其原理是前期分层和整群抽样技术的综合应用，但具体计算更为复杂，通常需要专门的软件和方法，这超出了本课程的范围，会在后续课程中深入探讨。

总而言之，分层多阶段抽样是一种强大且灵活的工具，其具体形式（如使用哪些层级单位）可根据不同国家或地区的可用数据（如人口普查或登记系统）进行调整，但其核心设计逻辑是相通的。

接下来，在第三讲中，我们将开始探讨一个在估计中至关重要的话题：加权。我们将详细讨论在过度抽样/抽样不足、无回答调整以及网络抽样等情况下，如何构建和使用权重。敬请关注。

119：超-欠抽样权重 ⚖️

在本节课中，我们将学习抽样调查中的一个核心概念：权重。我们将重点探讨当样本设计涉及超抽样或欠抽样时，如何通过权重来调整估计值，以准确反映总体情况。理解权重对于分析复杂的调查数据至关重要。

权重的基本框架 🧩

上一节我们介绍了分层抽样，本节中我们来看看权重的基本框架。权重过程可以比作一个漏斗及其逆向操作。

我们从一个抽样框开始，它代表总体，包含 N 个元素，但我们对其所知甚少。然后，我们通过某种概率机制（抽样分数 n/N）抽取一个样本，样本量为 n，每个元素被选入样本的概率为 π。样本包含的信息更详细。

为了从样本估计总体参数（如均值），我们需要“逆向”操作，将样本结果“膨胀”回总体规模。这通过应用权重来实现，权重通常是抽样概率的倒数 1/π。这样，我们就能在一个“人工构建”的总体（规模为 N，信息来自样本）上进行计算，并评估估计的不确定性。

等概率抽样与加权估计 📊

在等概率抽样方法中，每个元素的入选概率 π 相同，等于抽样分数 n/N。此时，每个样本元素的权重 w 也相同，为 1/π = N/n。

计算样本均值时，未加权估计公式为：
ȳ_unweighted = (Σ y_i) / n

由于所有权重相同，它们在分子分母中会相互抵消，因此未加权估计是有效的。未加权估计实际上是加权估计在所有权重相等时的一个特例。

加权估计的通用公式为：
ȳ_weighted = (Σ w_i * y_i) / (Σ w_i)
其中，w_i = 1 / π_i。

超抽样与欠抽样的权重应用 🎯

现在，我们来看一个需要应用不同权重的具体场景：分层抽样中的超抽样与欠抽样。

假设我们要研究美国10年级学生的测试成绩。总体约有400万学生。我们根据学校享受免费或减价午餐的学生比例（作为社会经济地位的代理指标）将总体分为两层：“高比例”层（低收入，约80万学生）和“低比例”层（高收入，约320万学生）。

以下是两种不同的样本分配方案：

1. 比例分配

目标：使样本能准确代表总体构成。
方法：每层使用相同的抽样率。例如，若总样本量为12000，则“高比例”层样本量 = 12000 * (80万/400万) = 2400，“低比例”层样本量 = 9600。
权重：由于每层内抽样概率相同，权重在层内恒定。虽然可以计算权重，但在合并估计时它们会抵消，因此使用未加权估计即可。

2. 等额分配（涉及超/欠抽样）

目标：提高对较小群体（此处为“高比例”层）估计的精度，或便于进行层间比较。
方法：每层抽取相同数量的样本。例如，每层各抽6000名学生。
后果：这导致对“高比例”层进行了超抽样（抽样率高于总体比例），对“低比例”层进行了欠抽样。如果直接计算未加权样本均值，结果会偏向于超抽样层（此处为低收入层）的特征。
解决方案：必须使用权重进行校正。权重为入选概率的倒数：
- “高比例”层权重 w_high = 1 / (6000/800000) ≈ 133.33
- “低比例”层权重 w_low = 1 / (6000/3200000) ≈ 533.33
  在计算总体均值时，需使用这些权重进行加权平均，从而校正因不等概率抽样带来的偏差，得到对总体真实均值的无偏估计。

核心要点总结 📝

本节课中我们一起学习了权重的核心概念与应用：

权重的本质：是样本元素代表总体中个体数量的倍数，通常为抽样概率的倒数 1/π。
等概率抽样：当所有元素入选概率相同时，未加权估计是有效的。
不等概率抽样：当设计包含超抽样或欠抽样（如分层抽样中的等额分配）时，不同元素有不同的权重。
加权估计：必须使用加权公式 ȳ_weighted = (Σ w_i * y_i) / (Σ w_i) 来计算总体参数，以校正因不等概率抽样引入的偏差。
权重的目的：使得在满足特定研究需求（如提高子群估计精度）的抽样设计下，最终仍能获得对总体参数的有效估计。

权重是处理复杂调查数据的基础。在接下来的课程中，我们将探讨权重如何进一步用于调整调查中常见的无回答和覆盖不全等问题。

120：无应答与未覆盖加权 📊

在本节课中，我们将学习如何处理调查数据中两个常见问题：无应答和未覆盖。我们将探讨如何通过加权调整来补偿这些问题，以确保样本估计能够更准确地反映总体情况。课程将涵盖无应答加权、事后分层校准，以及如何将这些权重与之前的抽样权重结合起来。

从样本到受访者

上一节我们介绍了为应对抽样比例不均而进行的加权调整。本节中，我们来看看当样本中的部分个体未能提供数据时，我们该如何处理。

在调查中，并非所有被抽中的个体都会参与或完成调查，这种现象称为无应答。无应答可能导致样本出现偏差，特别是当无应答在不同子群体中比例不同时。我们的目标是从实际收集到的受访者样本出发，通过加权调整，使其能代表我们最初设计的完整样本。

无应答加权调整

以下是处理无应答的一种常见方法，其核心是假设无应答在特定组内是随机发生的。

假设我们从一个包含400万10年级学生的总体中，抽取了一个12,000人的样本。样本分为“都市区”和“非都市区”两组。在数据收集后，我们发现两组学生的应答率不同：

都市区学生：样本8,000人，实际应答5,600人。应答率为 5,600 / 8,000 = 0.7。
非都市区学生：样本4,000人，实际应答3,400人。应答率为 3,400 / 4,000 = 0.85。

总体应答率为75%，但两组之间存在差异。如果我们假设组内的无应答是随机的，那么组内的应答率就可以被视为一种“抽样率”。为了补偿无应答带来的样本缩减，我们计算其逆数作为无应答调整权重：

都市区权重：1 / 0.7 ≈ 1.43
非都市区权重：1 / 0.85 ≈ 1.18

这意味着，在后续分析中，每个都市区受访者的数据将被视为代表约1.43个原始样本中的都市区个体，而非都市区受访者则代表约1.18个个体。这补偿了因无应答导致的样本构成变化。

组合多种权重

在实际操作中，调查数据通常需要同时调整多种偏差。例如，我们的样本可能已经因为对“低收入家庭学生”的过度抽样而有了初始权重，现在又需要加上无应答调整权重。

以下是组合权重的步骤：

确定分组：根据所有相关维度（如收入水平、居住区域）对样本进行交叉分组。
计算各类权重：
- 抽样权重 (W1)：补偿过度或不足抽样。
- 无应答权重 (W2)：补偿不同组间的无应答差异。
计算最终权重：将同一组内的所有权重相乘。

假设我们有两个维度：

免费/减价午餐资格：高比例组（权重=1），低比例组（权重=4，因过度抽样）。
居住区域：都市区（无应答权重=1.43），非都市区（无应答权重=1.18）。

那么，一个来自“都市区、低比例午餐资格”组的受访者的最终权重计算如下：
最终权重 = 抽样权重 × 无应答权重 = 4 × 1.43 = 5.72

通过这种方式，我们为每个受访者计算出一个综合权重，同时校正了抽样设计和无应答带来的影响。

事后分层校准

即使经过上述调整，加权后的样本分布仍可能与总体在关键变量（如家庭结构）上存在差异。这时，我们可以使用事后分层进行校准。

假设我们从外部数据（如人口普查）得知，10年级学生中来自单亲家庭的比例应为30%。但在我们加权后的9,000名受访者样本中，该比例仅为20%。为了校准这一差异，我们计算事后分层权重：

单亲家庭组权重：总体比例 / 样本比例 = 0.30 / 0.20 = 1.5
其他家庭组权重：0.70 / 0.80 = 0.875

这个权重将应用于已经过抽样和无应答加权的数据。它上调了单亲家庭受访者的贡献，下调了其他家庭受访者的贡献，从而使样本在家庭结构分布上与总体一致。

构建最终权重

最终，一个受访者的完整权重是所有这些调整因子的乘积。它可能包含三个部分：

最终权重 = 抽样设计权重 × 无应答调整权重 × 事后分层校准权重

以下是一个简化的例子，展示了如何为不同特征的受访者计算最终权重：

午餐资格	居住区域	家庭结构	抽样权重 (W1)	无应答权重 (W2)	事后分层权重 (W3)	最终权重 (W1×W2×W3)
高	都市区	单亲	1	1.43	1.5	2.145
高	都市区	其他	1	1.43	0.875	1.251
低	非都市区	单亲	4	1.18	1.5	7.08
低	非都市区	其他	4	1.18	0.875	4.13

如表示例，最终权重差异很大，这反映了不同子群体被选入最终分析样本的综合概率不同。分析软件（如R、Stata、SPSS）在计算均值、总值等统计量时，会使用这些权重进行加权运算。

本节课中我们一起学习了调查数据处理中关键的加权技术。我们首先探讨了如何使用无应答权重来补偿因部分样本未回答而造成的偏差。接着，我们了解了如何将无应答权重与基础的抽样设计权重相结合。最后，我们介绍了事后分层校准，这是一种通过外部总体信息对样本进行微调的方法，以确保样本在重要特征上与总体保持一致。理解这些权重是如何构建和组合的，对于正确分析和解读任何复杂调查数据都至关重要。

121：网络抽样与多重权重 📊

在本节课中，我们将学习网络抽样的基本概念。网络抽样是一种利用个体之间的连接关系来扩大样本范围或获取额外信息的抽样方法。我们将通过两个具体的例子来理解其原理、应用以及如何通过权重调整来处理由此产生的多重选择概率问题。

网络抽样简介

上一节我们讨论了传统的抽样方法，本节中我们来看看当抽样单元之间存在连接关系时会发生什么。网络由节点（通常代表个体）和边（代表节点间的关系）构成。这种结构在社交网络、组织关系等场景中非常常见。

在调查研究中，我们有时会利用这些网络关系来获取更多数据。例如，通过询问被访者关于其家庭成员的信息，我们可以间接了解到未直接抽中的个体的情况。然而，这也会带来新的挑战，即同一个体可能通过不同的网络路径被多次“选中”，从而影响样本的代表性。

示例一：兄弟姐妹网络抽样 👨👩👧👦

让我们看第一个例子。假设我们进行一项关于糖尿病患病率的调查。我们从一个总体中随机抽取了一些个体（用红点表示），并询问他们及其所有在世兄弟姐妹的健康状况。

以下是这个抽样过程的关键步骤：

初始抽样：我们随机抽取了10个个体。
网络识别：每个被抽中的个体报告其兄弟姐妹网络。这让我们知道了网络中总共包含27个人（包括样本个体本身）。
数据收集：我们通过样本个体，收集了其本人及其所有兄弟姐妹的糖尿病患病信息。
核心问题：在这个网络中，一个拥有两个兄弟姐妹的人，其本人被直接抽中的概率是一种进入样本的方式。此外，如果他的任何一个兄弟姐妹被抽中并报告了他的信息，这又提供了额外的进入样本的方式。因此，来自较小网络（如独生子女）的人被代表的机会，相对于来自较大网络（如多子女家庭）的人更少。

为了解决这种“多重入选机会”导致的选择概率不均等问题，我们需要为每个个体计算一个网络调整权重。其基本思想是：个体的最终权重应与其被选入样本的总概率成反比。这个总概率与其所在的网络大小有关。

权重计算示例

以下是一个简化的计算过程展示。我们假设初始抽样赋予每个人的基础权重为 W_base，然后根据其网络大小进行调整。

样本个体	网络大小	基础权重 (W_base)	网络调整权重 (W_adj)	计算公式
1 (无兄弟姐妹)	1	100	100	`W_adj = W_base / 1`
2 (有2个兄弟姐妹)	3	100	33.3	`W_adj = W_base / 3`
3 (有3个兄弟姐妹)	4	200	50	`W_adj = W_base / 4`

公式：网络调整权重 = 基础权重 / 网络大小

这个调整确保了，尽管来自大家庭的个体有更多途径进入样本，但他们在最终估计中的贡献会被相应调低，从而保证估计的无偏性。

患病率估计对比

通过这个例子，我们可以看到不同估计方法的差异：

仅基于10个样本个体（未加权）：患病率 = 2/10 = 20%
基于27个网络成员（未加权）：患病率 = 6/27 ≈ 22.2%（此估计有偏，因为它忽略了多重选择概率）
基于网络调整权重：患病率 = 25.6%（这是经过正确加权处理后的无偏估计）

由此可见，利用网络信息显著增加了病例数（从2例增加到6例），提高了估计的精确度，但必须通过权重调整来保证其准确性。

示例二：保险公司-客户星型网络 🏢➡️👥

现在，我们来看另一种网络结构。假设我们想研究人们的健康状况，同时也想了解为其提供服务的保险公司的情况。我们抽取了一个人的样本，并询问了他们的健康保险公司信息。

在这个“星型网络”中，保险公司是中心节点，参保客户是周围的节点。我们的样本中，有6个人来自两家保险公司。其中，有一个人同时是两家公司的客户（构成了网络间的连接）。

以下是这个例子的分析：

目标：通过人员样本，同时估计个人健康指标和保险公司层面的特征。
方法：识别每个样本个体的保险公司。这样，保险公司被其客户“带入”样本。
权重挑战：一家保险公司被选入样本的概率，取决于其有多少客户被我们抽中，以及这些客户被抽中的概率。例如，拥有更多客户的公司被选中的机会更大。同时，那家同时服务于两个样本个体的公司，其被选中的概率计算也需要特别考虑。

虽然此处未展示具体的权重计算公式，但原理与第一个例子相通：我们需要为每家保险公司计算一个基于其客户网络和客户抽样概率的权重，以便在分析保险公司数据时进行无偏估计。

总结与过渡

本节课中我们一起学习了网络抽样的基本概念。我们通过兄弟姐妹网络的例子，理解了如何利用社会关系扩大样本，并通过网络调整权重来处理多重入选概率问题。接着，通过保险公司-客户网络的例子，我们看到了网络抽样如何帮助我们从人员样本中获取组织层面的信息。

网络抽样是一种强大的工具，它能让我们更高效地收集数据，尤其是针对稀有特征或难以直接抽样的群体。其核心在于，任何利用网络连接获取额外信息或单元的方法，都必须通过严谨的权重体系来校正由此产生的非等概率选择问题。

在下一讲，也是本单元的最后一课中，我们将把目光从概率抽样转向非概率抽样，探讨其应用场景和需要注意的问题。

122：非概率抽样 📊

在本节课中，我们将要学习概率抽样之外的另一种抽样方法——非概率抽样。我们将探讨其定义、常见类型、与概率抽样的区别，以及在实际应用中的考量。

到目前为止，在讨论对人员、记录和网络的抽样时，我们主要集中于涉及选择概率的样本，即概率抽样。

在我们最后一个单元（单元6）的最后一讲中，我们将讨论非概率抽样。我们将探讨当选择概率未被维持、未被记录或未使用随机选择时，可以有哪些样本设计。

有时，这些非概率抽样方法看起来像概率样本。有时它们看起来像网络样本。它们有各种变体。但也有大量非概率样本甚至不试图模仿现有的样本设计，而纯粹是招募技术。它们几乎算不上是包含正式选择和后续数据收集的“抽样”。这更像是“让我们招募一组要访谈的对象”，样本选择和招募几乎合为一步，但在我们将要讨论的内容中，选择过程没有随机化，或者我们一直处理的随机化因样本的获取方式而被破坏。

我将使用一些来自密歇根大学调查研究中心同事Sunki Lee的材料（已获许可），并已将其与我自己的材料混合。因此，我想说明这包含了她的贡献，但我无法明确标识，除了在讨论“受访者驱动抽样”时有一两张直接来自她的幻灯片。

关于这类方法存在一场辩论，且已持续很长时间。左下角的小照片展示了美国历史上著名的辩论，例如19世纪50年代亚伯拉罕·林肯与其国会竞选对手斯蒂芬·道格拉斯关于奴隶制等问题的辩论，双方反复争论。抽样领域也一直存在类似的争论。

莱斯利·基什在1965年出版的教科书中对概率抽样进行了早期讨论：在概率抽样中，总体中的每个元素都有一个已知的非零被选机会。选择机制建立在随机数基础上。概率抽样要求实际选择由决定所需概率的机械程序完成，即使用随机化。

威廉·科克伦在1977年其教科书的后续版本中谈到非概率样本时指出，它们不是同一种东西。它们不适用于我们之前探讨的抽样理论的发展，即最终得到抽样分布和标准误（衡量所有可能样本间值离散程度的指标）。如果没有涉及随机选择，我们就无法应用那种无模型框架。即使某种方法在一个样本中表现良好，也不能保证它在其他情况下也能表现良好，而概率抽样为我们提供了这种保证。

但正如多次指出的那样（这里引用安德鲁·格尔曼近年的观点），概率抽样在原则和理论上是好的，但实际上没有任何样本是真正完全的概率样本，他甚至说“甚至不接近概率样本”。我认为这有点言过其实，我不同意这一点，但他的观点有其道理：即使我们进行仔细的概率抽样，无应答也会干扰；当我们处理无应答时，我们已经通过加权看到，我们对无应答的运作方式做出假设，然后基于该假设进行调整。因此，在那种情况下，我们将使用一个模型，它是概率选择和用于调整非概率机制的模型的混合。

所以，一直以来，我们实际上一直在思考（我也一直在思考）那些基于概率但具有非概率特征的模型。但也存在完全基于非概率的样本设计。它们甚至不是从概率样本开始的。我们想简要讨论一下这些方法的演进过程。

从概率样本到非概率调整

首先，让我们从具有无应答的概率样本这个概念开始。无应答引入了非概率选择。有多种方式处理这种无应答，但如果无应答不多，就不是严重的偏离，它基本上仍然是概率样本。

一种常见的处理方法是进行调整。例如，知道由于无应答将损失20%的样本，那么可以在一开始就扩大样本量。当数据收集资源耗尽时停止，试图通过加权机制（如我们之前所见）来补偿无应答损失。顺便提一下，正如我们之前讨论无应答加权的逻辑回归模型时暗示的那样，这些模型在给定无应答的情况下改进了我们的概率样本。

另一种可能更常见的方法是替代无应答者。即，当我们有一个无应答案例时，我们将获取另一个案例来替代它。无应答者拒绝了，我们就抽取另一个案例并使用其值。

替代可以通过多种方式进行。例如，可以非常有目的性地进行。无应答者具有某些特征，我们运用判断从抽样框中选择另一个人来替代。这种情况有时会发生，尤其是在初级抽样单位中。在学校抽样中可以看到这种情况：我们失去了一个学校（一个群），因为他们拒绝参与。现在我们查看其他学校，并试图利用我们作为所研究现象（心理学、社会学或公共卫生方面）专家的判断，来找到一个尽可能接近那个单位的学校。

我们会退一步说，这非常主观，但我们将运用我们对此的专家意见。我并不是说我们不应该这样做，我只是说这与我们讨论的概率抽样不同。

另一种替代方法是匹配。例如，我们将匹配四个维度：找到另一所规模相似、地理位置（城市或农村）相似、免费或减价午餐水平相似、并且位于同一州/省的学校。我们将在此基础上进行匹配并选择一个，也许还会结合我们对匹配接近程度的专家意见，但我们将尽可能在这些维度上接近。

我们也可以选择完全随机地选择替代者。我们失去了这个案例，我们将随机选择另一个。或者，我们可能进行分层随机选择：我们在特定层内失去了这个案例，我们将从同一层中选择其替代者。

然而，所有这些都偏离了概率抽样方案。替代在样本设计中很常见，但其性质并未被完全理解，不过它是一种调整方法。

这些是非概率样本。诚然，这是在格尔曼承认这一点的精神下，但与我们即将看到的一些方法相比，这些是轻微的偏离。

其他类型的非概率样本

也存在其他维度上类似概率的样本，例如配额样本。大多数人想到的配额样本涉及多阶段选择。回想一下我们的分层多阶段样本：我们抽取初级抽样单位（县），然后抽取街区，然后抽取住房单元，然后可能继续抽取其中的人员。多阶段配额抽样很可能抽取县的样本，然后抽取街区（或在政治体系中类似投票区或选区）的样本，然后在其中指定样本中所需人员类型的配额。访员被派往该地点收集数据，要求一半为女性，进行10次访谈，其中5次应为女性，5次应为男性，其中2次应为非裔美国人，1次应为18至24岁的人。配额已设定，但访员有决定权。现在我们看到了更大的偏离。是的，我们在初级抽样单位和第二阶段抽样单位进行了概率抽样，但在第三阶段，它向访员的决定开放，他们只需要满足配额。这是另一种偏离。

现在还有基于网络的抽样。这些大多是方便样本，但就我们进行某种电子邮件群发、聊天室、即时消息、横幅广告、社交媒体招募人员而言，它们是“基于网络”的。这与我们迄今为止讨论的内容有很大不同。我们将扩展讨论这些方法，因为在过去几十年中，随着网络、社交网络以及其他通过网络接触人的方式变得更加普遍，这些方法已变得相当重要。

但当我们这样做时，也有一些技术将网络、链式推荐系统引入样本选择。一种称为滚雪球抽样的技术，从一个小样本开始，通过推荐不断增加规模。我们从稀有群体成员的方便样本开始，然后利用内部知识，通过链式推荐在网络内定位更多成员。这听起来有点像我们之前处理多重计数时的情况，但这比那随意得多。它主要用于定性研究，以增加稀有群体成员的样本量。

我们之前考虑的想法涉及对网络的正式规范，我们对网络是什么更加谨慎，并利用了人与人之间的连接性（链式推荐），但我们通过权重来利用重复计数，并且我们能够在该类网络中收集多个人的数据。因此，滚雪球抽样和网络抽样有一些重叠的原则，但它们的结构非常不同：一个是不太正式的系统，旨在快速获取关于稀有群体的信息；另一个也关注稀有群体，但通过更仔细地定义网络、规范、识别，然后进行计数和加权来连接它们。

还有一系列被称为受访者驱动抽样的技术。它介于这两者之间，利用稀有群体的社交网络进行抽样。它通过一个马尔可夫过程假设，将滚雪球样本转化为随机抽样过程。他们假设招募具有某些类似于随机过程的特性，从而允许他们为每个个体确定权重，并通过该加权产生无偏估计。这与多重计数非常相似，但对网络的规范结构化程度较低。这类方法涉及更强的假设。网络招募也不是由调查者完成的，而是由受试者（受访者）完成的，他们驱动抽样过程。

例如，我们可能有一些“种子”（第一波），这些个体是我们通过方便方法识别的。然后，我们要求他们招募其他人。我们给他们一系列招募券，他们分发给社区中的联系人，招募额外的受试者（1、2、3、4），并提供给他们招募券，鼓励他们联系调查者提供数据。这些新受试者又依次被用来招募新的受试者。当进行第2、3、4波直至第W波时，会招募额外的受试者以填满样本量。

在这些系统中，我们对每个种子重复此过程，但在每个种子内部，我们会跟踪样本量的增长。我们使用样本来招募新的样本成员，很像滚雪球抽样，但不完全相同。然后，我们对此过程做出假设：这些招募券如何使用，我们多有效地招募到网络中的元素。我们查看实际被招募的网络。最终，对于每个种子，从其招募券和收集的个体中，我们得到一个最终样本。我们将在一个假设了复杂过程的模型下，计算其中每个个体的选择概率。

种子1有一个招募链，种子2有一个招募链。我们做出假设以连接该招募链中的人员，假设我们捕获了所有可能存在的网络，并且随着招募过程的进行，它们都有一定的被选机会。

网络面板与模型假设

让我们再讨论几种情况。有些选择涉及对样本设计好坏的判断，这类情况在网络面板中日益增多。

概率网络面板是指我们从概率样本开始，但将人们招募到一个面板中，然后用于后续访谈。概率样本受无应答影响，会组装某种初始名册，然后收集一个面板。这些概率网络面板（以及概率电话面板）从概率样本开始，招募个人，然后在多项研究中重复使用他们。

也有非概率网络面板，它们不是从初始概率样本开始，而是通过某种大规模邮件（我们之前提到的电子邮件群发）来组装的。因此，我们现在组成了一个面板，将用于查询我们的结果。但这些面板可能非常庞大，可达数百万。我们将在每次样本选择时使用它们，无论我们是从基础概率样本还是从大规模电子邮件中选取。

与非概率网络面板密切相关的是河流样本。河流样本持续地捕获受试者，而不是将他们收集起来放入一个将作出回应的面板中。我们持续收集关于他们的数据。我们捕获网站访问者，我们有横幅广告或弹出广告，人们点击并回应。这里的抽样框很难定义，是这些网站的访问者吗？他们是谁？为什么点击？他们是志愿者吗？有重复吗？他们会为这类事情提供多个名字吗？这类方法存在各种问题，但它是一种非常方便、成本低得多且通过网络可以快速完成的招募设备。因此，这些方法变得相当流行，但你可以看到我们现在离概率抽样方法有多远。

这些变得越来越像自愿加入小组。只是建立一个系统，让人们可以选择加入并自愿参与我们的研究。我们无疑在电视台见过这类事情，他们提供一个网址，你可以去那里就某个主题发表意见。这完全是自愿的。当我们试图进行某种估计时，如何处理这类样本呢？

在这一点上，它是基于模型的。我们必须有某种模型，可能不像我们看待无应答时的那种模型（随机缺失和基于加权单元格或逻辑回归的调整），而是某种基于模型的调整。现在，在这些基于模型的方法中，出现了两种基本的模型假设。

一种是样本设计模型。我的样本选择机制，无论它是什么，我认为它类似于简单随机抽样。注意，我是断言，我将假设它像简单随机抽样。或者，在我们描述的配额样本情况下，它像一个整群样本，或像一个分层的基本设计。我们将把该断言作为一个假设，然后我们的估计程序基于对该过程的模型假设进行。因此，我们可以以无偏的方式计算均值，可以在此基础上计算方差和置信区间。但这一切都建立在该假设之上，问题在于该假设有多好，以及当该假设失败时会发生什么。因此，在非概率抽样中，我们现在必须处理假设失败的问题。如果我们保持非概率元素的数量较少（例如，具有无应答和无应答调整的概率样本），我们的假设就较弱；相反，如果我们有一个自愿加入小组，假设就较强。这是一种处理方法：我们继续使用概率样本作为一个模型，但我们假设我们的非概率抽样机制类似于其中之一。

另一种是使用总体的统计模型。这对那些学过统计学课程的人来说更熟悉，我们从概率模型（如正态分布或多元正态分布）开始。我们假设那是基础总体，现在我们的样本就像是从该总体中抽取的、具有独立同分布随机变量的样本。在那种特定情况下，实际上有两个假设：一个是关于总体中特征分布的假设（钟形、对称），另一个是关于抽样机制的假设（独立同分布）。随机抽样（即使是简单随机抽样）也给我们带来相同的结果。

因此，这里的估计比我们到目前为止讨论的更依赖于模型。

总结

我们关于抽样的讨论到此为止。我们现在涵盖了相当广泛的样本类型：从仅仅随机化的样本，到整群的、分层的、通过系统选择简化的样本。我们研究了抽样的组合，通过统计软件研究了样本选择方法，在最近的讲座中还研究了加权、调整甚至非概率样本。涵盖范围很广，我们只是浅尝辄止，但我们已经为你提供了足够的背景知识，我们认为你现在应该对调查样本如何工作有了更好的理解，并且理解了这一重要的基础，它常常为延续至今的辩论提供领域：我们的基础是基于概率，还是基于招募策略？如果基于招募策略，我们可以使用哪些模型使它们看起来更像我们在理论上更透彻理解的其他东西？

希望这对你有所帮助，并且你将来在对人员、记录、网络进行抽样时，会发现它有用，能够为未来工作中的这些应用提供参考。

非常感谢。

123：课程5：缺失数据处理、加权与插补导论

在本课程中，我们将学习如何处理缺失数据、加权与插补。我是密歇根大学和马里兰大学的研究教授理查德·瓦利安特。本课程也包含来自马里兰大学教授弗雷克·克罗伊特的贡献。

我们将涵盖四个模块：加权的一般步骤、实施加权的具体步骤、如何通过软件实现这些步骤，以及针对缺失项目的加权处理。现在，我们从加权的基本介绍开始。

🎯 加权的目的

加权的主要目的是将样本扩展到完整的有限总体。我们试图用这个小样本世界来推断更大的总体世界，而权重就是实现这一扩展的工具。

加权旨在实现几个具体目标。一是纠正样本或抽样框的覆盖问题。很多时候，我们有一个定义好的目标总体，但实际能从中抽取样本的抽样框，其覆盖范围与目标总体并不完全一致。我们需要通过加权来调整这种差异。

加权的另一个重要步骤是，如果拥有辅助数据，可以利用它们来创建无偏且更精确的估计量。

🖼️ 总体、抽样框与样本的关系

让我们通过一张图来理解这个情况。图中灰色的椭圆代表我们试图推断的目标总体 U。矩形代表我们实际能从中抽取样本的抽样框 F。

可以看到，这两个区域并不完全重叠。图中右上方的区域属于目标总体，但不在抽样框内。这意味着由于各种原因，我们无法从这部分总体中抽取样本。例如，假设我们调查企业，但企业名单过时了，一些新成立的企业未被包含在内。

图中右下方的区域 F - U 则代表另一个问题：这部分单位在我们的抽样框内，但它们不属于目标总体（灰色椭圆）。当我抽取样本（图中橙色椭圆）时，它既覆盖了目标总体的一部分，也覆盖了抽样框中不属于总体的那一部分。

因此，在进行推断时，我必须剔除样本中那些不符合条件（即不属于总体）的单位。同时，我需要将样本中属于总体的那部分，不仅扩展到抽样框内但未被抽中的其他单位，还要扩展到抽样框外但属于总体的那部分单位。这种扩展需要基于一些重要的假设，但试图将样本单位扩展到整个总体是标准的操作流程，即使样本可能并未覆盖所有单位。

⚖️ 权重与估计量的关系及权重尺度

权重与估计量紧密相连。权重的尺度可以变化。

一种缩放权重的方法是让它们估计有限总体总量。另一种方法是强制让权重之和等于样本量。这两种方法都会用到。缩放至样本量之和的权重被称为归一化权重。

归一化权重的做法部分源于过去调查数据分析软件不易获得的时代。当时的想法是，如果进行涉及自由度计算的分析，旧版软件通常会报告为“权重之和减去模型参数个数 P”。如果权重被缩放为估计总体总量，这个和会非常巨大（例如在美国，关于人口的权重和可能超过3亿），这显然不符合一个样本量为1000的调查所应有的自由度概念。通过归一化，权重之和减去 P 会得到一个更合理的数字，即样本量减去 P。

在本课程中，我们将主要处理缩放为估计总体总量的权重。这是大多数联邦政府机构采用的标准方法，因为总体总量（如失业总人数）是这些调查中的重要指标。

❓ 为何必须使用权重？

以下是一个简单的例子，用以说明问题的关键。如果有一个来自有限总体的样本，一种做法是完全忽略权重，并希望结果正确。

假设我们要估计不同种族群体中糖尿病的患病率。样本对每个种族群体都产生了无偏估计，但每个群体被抽取的样本量是相等的。然而，这些群体在总体中的实际规模是不同的。

考虑以下种族群体：非西班牙裔白人、亚裔美国人、西班牙裔、非西班牙裔黑人、美国印第安人和阿拉斯加原住民。假设样本中发现的各群体糖尿病患病率如下表B列所示，而各群体在总体中的比例如C列所示。

种族群体	B: 样本患病率	C: 总体比例
非西班牙裔白人	0.076	0.65
亚裔美国人	0.083	0.06
西班牙裔	0.123	0.16
非西班牙裔黑人	0.138	0.12
美国印第安人和阿拉斯加原住民	0.159	0.01

计算总体患病率的方法是：将每个群体的样本患病率乘以其在总体中的比例，然后求和。即 总体患病率 = Σ(B列 * C列)。计算结果是 0.093，即 9.3%。

现在，进一步假设样本在各群体中是均匀分配的，即每个群体占样本的20%（如下表E列）。如果进行未加权的分析（即忽略各群体在总体中的不同规模），相当于计算 Σ(B列 * E列)。

种族群体	B: 样本患病率	E: 样本比例 (未加权)
非西班牙裔白人	0.076	0.2
亚裔美国人	0.083	0.2
西班牙裔	0.123	0.2
非西班牙裔黑人	0.138	0.2
美国印第安人和阿拉斯加原住民	0.159	0.2

未加权分析的结果是 0.117，即 11.7% 的患病率。这与真实的总体值 9.3% 相差甚远。

这个偏差产生的原因是，样本在各群体间是等额分配的，但各群体在总体中的规模差异很大，并且我们关心的指标（糖尿病患病率）在各群体间也存在显著差异。在这种情况下忽略权重，就会得到有偏的估计。这就是为什么我们必须使用权重。

在后续章节中，我们将详细讨论如何计算这些权重。

📝 总结

本节课我们一起学习了加权的基本概念。我们了解到，加权的核心目的是将样本结果扩展到目标总体。这涉及到处理抽样框覆盖不全的问题，并可能利用辅助数据提高估计精度。我们通过图示理解了总体、抽样框和样本之间的关系，并明确了权重与估计量密不可分，且有权重尺度（如总体总量尺度与归一化尺度）之分。最后，通过一个糖尿病患病率的例子，我们直观地看到了当样本结构与总体结构不一致且研究变量在子群间存在差异时，不使用权重会导致估计结果产生严重偏差。这奠定了我们在后续课程中深入学习具体加权方法的基础。

124：使用调查权重估计的量 📊

在本节中，我们将学习如何使用调查权重来估计总体中的各种重要量。我们将从最基本的总数估计开始，逐步扩展到均值、比例、分位数等更复杂的统计量，并了解它们之间的内在联系。

概述：我们可以估计什么？

在调查数据分析中，我们经常需要估计总体参数。一些最基本且重要的量是总数。例如，我们可能希望估计：

接受公共援助计划的总人数。
经济体中人们失业的总天数。
去年人们看医生的总次数。

这些都是在各类调查中可能感兴趣的目标。

估计总体总数

思考总数估计的一个简便方法是，我们可以将总体总数写作以下形式：

总体总数 = Σ(样本中观测到的值) + Σ(非样本单元的值)

用符号表示：

Σ_{i ∈ S} y_i：对属于样本集合 S 的所有单元 i 的观测值 y_i 求和。
Σ_{i ∈ R} y_i：对属于剩余部分（即非样本）集合 R 的所有单元的值求和。

我们的任务是直截了当的：需要预测非样本单元部分的总和。通常，一个估计的总数具有以下形式：

估计的总数 = Σ_{i ∈ S} (w_i * y_i)

这里，w_i 是分配给样本单元 i 的权重。假设这些权重经过缩放，可以用于估计总体总数，那么上述公式就能给出一个有效的有限总体总数估计值。

估计均值

均值是我们可能希望估计的另一类有趣量，例如：

平均收入。
人均平均受教育年限。
学生在某项标准化测试中的平均分数。

标准的估计方法是，先获得一个总数的估计值，再除以权重的总和：

估计的均值 = (Σ_{i ∈ S} (w_i * y_i)) / (Σ_{i ∈ S} w_i)

这个公式以恰当的方式进行了缩放。需要注意的一点是，在通常的权重计算方式下，权重的总和 Σ w_i 本身就是对总体（或子组）中单元数量的一个估计。有时它恰好等于总体单元数，这取决于权重的计算方法和抽样设计。但一般而言，它是一个估计值。如果我们对某个子组（例如仅男性或仅女性）求和，那么得到的就是该子组单元数量的估计值。这是概率抽样及其权重计算方式的一个有用特性。

估计比例与分位数

调查通常发布的重要结果还包括比例或百分比，例如计划投票给某位候选人的选民比例或失业率。

我们也可以估计分位数，如中位数、第一和第三四分位数。例如：

家庭收入中位数。
初婚年龄中位数。
1至5岁儿童血铅水平的第95百分位数（公共卫生领域关注的一个指标）。

以下是估计分位数的算法：

首先，根据你关注的变量 y（例如血铅含量）的值，将数据文件从低到高排序。
然后，累积权重，直到达到总权重的所需百分比（例如，中位数对应50%）。
记录累积到该点时对应单元的 y 值，这就是样本对中位数或其他所需分位数的估计。

请注意，当我们累积权重时，实际上是在对一个子组求和。如果求和到总权重的一半，那就是对 y 值小于或等于该点的估计人数。

估计比率与回归参数

我们还可以估计比率，例如女性平均收入与男性平均收入的比率。在2x2列联表中，我们可以估计比值比，例如非裔美国人患糖尿病的几率与其他所有人患糖尿病的几率之比。

此外，我们可以使用加权估计来估计回归模型参数。

子组（域）估计

大多数调查中的一个关键环节是进行子组估计。例如，如果我们想估计18至34岁男性中通过电视观看过现场体育赛事比例，这就是一个子组（或称为“域”）估计。每当你根据调查数据制作交叉表时，表中的每个单元格都是在进行域或子组估计。

在许多情况下，需要考虑一个事实对标准误差的影响：我们可能无法控制所制作表格中每个单元格的样本量。这种随机性需要以特定方式加以考虑。有时，单元格的样本量是我们直接控制的（固定），但通常情况下，样本中出现的情况是随机的，我们通常试图对此进行解释。

总结

本节课中，我们一起学习了如何使用调查权重来估计总体中的各种参数。核心在于，许多我们关心的量——如比率、比值比、比例和均值——都是估计总数的函数。因此，只要理解了如何估计总数，就在理解如何估计总体中许多其他量的道路上迈进了一大步。下一节，我们将探讨估计的更多目标。

125：估计目标 🎯

在本节中，我们将更深入地探讨有限总体估计的目标。我们将学习如何通过“普查思维”来明确估计目标，并识别在定义这些目标时可能遇到的明确与模糊情况。

概述

估计的核心是明确我们试图测量的“目标”。一个有效的方法是进行一个思想实验：如果我们不是进行抽样调查，而是对总体中的每一个单元都进行了普查，我们会得到什么值？这个值就是普查值，它是我们通过样本试图估计的终极目标。

上一节我们介绍了估计的基本概念，本节中我们来看看如何清晰地定义这个“目标值”。

为何要思考“普查值”？

要求自己描述“如果进行普查会得到什么”非常有用。这主要有两个关键作用：

迫使你明确目标总体：这是最关键的一点。它帮助你聚焦于“我到底想对谁做出推断？”
排除抽样过程的复杂性：它让你暂时忽略抽样设计、选择方法和数据收集过程等技术细节，纯粹思考最终想要得到的汇总度量。

这个思想实验——“如果我拥有总体中每个单元，并能正确观测其值，我将如何组合这些值以得到我想估计的量”——能促使你思考许多重要问题。例如，你的样本能否覆盖你感兴趣的全部总体？即使进行普查，对我感兴趣的量的测量是否存在模糊性？

明确与模糊的估计目标示例

以下是估计目标的一些具体例子，它们展示了定义可能清晰或模糊的不同情况。

明确的估计目标（相对而言）

以下例子中的目标定义通常被认为是相对明确的。我将其标注为“相对”，是因为在精确定义时，总存在出现模糊性的可能。

华盛顿特区在2015年1月1日的居住人口数量：这看起来很明确。但仔细想想，在1月1日当天有人迁入或迁出，以哪个具体时刻为准？如何判定一个人是否“居住”在DC？这类问题可能出现。
舒张压高于90毫米汞柱的人数：只要能够正确测量血压，这似乎很明确。但这取决于所使用的测量仪器，不同仪器的校准精度可能不同。
在包含2015年9月12日的那一周内的全职员工数量：这是美国劳工统计局用于收集某类就业数据的定义，是一个操作化相对清晰的例子。

模糊的估计目标

以下例子则更能说明定义估计目标时可能遇到的模糊性。

将在下次选举中投票的人数：你必须在选举前询问人们是否会投票。但说“会”的人可能最终没去投票，而说“不会”的人可能又去投了。在民意调查中，“可能投票者”的界定至今仍是调查机构面临的一大难题。
支持加强枪支管制的人数：在美国这是一个重要议题。“加强枪支管制”意味着什么？是对所有枪支还是特定类型？管制程度如何？这可能是一个模糊的概念。
劳动力人口数量：这是联邦政府希望估计的关键经济指标。要成为劳动力，一个人必须有工作或正在积极寻找工作。但你必须向人们解释“积极寻找”的含义，并且他们必须正确理解你的解释，这其中存在产生模糊性的机会。
消费者价格指数（CPI，常被称为通货膨胀率）：对大多数经济体而言，这都是一个关键经济统计量。使其测量变得相当模糊的一个主要因素是“质量变化”。例如，去年和今年购买一台电脑，今年你可能用同样的钱买到一台性能好得多的电脑（处理器更快、存储容量更大、内存更多）。经济学家试图对此进行调整，因为你花的钱获得了更多价值，但具体如何调整并不完全清晰。

总结

本节课中我们一起学习了如何通过设想“普查值”来明确估计的目标。我们了解到，这一过程有助于聚焦目标总体并暂时剥离抽样复杂性。同时，我们通过实例分析了估计目标可能清晰明确，也可能因定义、测量或解释问题而变得模糊不清。在开始任何调查之前，仔细思考“如果进行普查，我会如何计算我想要的量”是一个至关重要的良好实践。

126：估计量的统计解释 📊

在本节中，我们将讨论从有限总体样本中得出的估计量的统计解释。我们将学习概率抽样与非概率抽样下估计量的性质，以及如何评估和调整估计量以确保其有效性。

概述

为了证明加权估计的合理性，它必须具有统计解释。这意味着估计量需要基于某种随机机制，能够代表总体。解释可以基于重复抽样，也可以基于模型。本节将详细探讨这两种解释方式，并介绍无偏性和一致性等重要概念。

概率抽样中的统计解释

上一节我们介绍了估计量需要统计解释。在概率抽样中，这种解释通常基于重复抽样的思想。

具体而言，如果我们按照特定的概率抽样设计（例如简单随机抽样）反复抽取样本，并对每个样本计算估计值，那么这一系列估计值的平均值应等于总体真值。这就是无偏性的含义。

一个估计量被称为无偏的，如果所有可能被抽中的随机样本的估计值的期望值等于普查值（总体真值）。用公式表示如下：

[
E(\hat{\theta}) = \theta
]

其中，(\hat{\theta}) 是估计量，(\theta) 是总体参数。

然而，无偏性并不保证估计的精确度。即使估计值在真值上下大幅波动，只要平均下来等于真值，它仍然是无偏的。

一致性与模型解释

比无偏性更理想的性质是一致性。

一个估计量被称为一致的，如果随着样本量增大，估计值越来越接近普查值。这意味着我们的估计会随着信息增加而变得更精确。用极限形式表示：

[
\hat{\theta} \xrightarrow{P} \theta \quad \text{当} \quad n \to \infty
]

对于非概率样本，我们无法依赖由抽样设计控制的重复抽样机制。因此，我们必须转向基于模型的解释。

建模可以有两种方式：

对单元如何进入样本进行建模（例如，某种准随机化方式）。
对我们所测量的总体Y值的结构进行建模。

无论哪种方式，目标都是使我们的样本能够“投射”到目标总体，即使样本不是随机获得的。

概率抽样的类型

在之前的课程中，我们已经接触过多种概率抽样方法。以下是几种常见的类型：

简单随机抽样：每个样本被选中的概率相同。
分层简单随机抽样：将总体分成层，在每层内进行简单随机抽样。
系统随机抽样：按某种系统规则（如每隔k个单元）抽取样本。
两阶段/多阶段抽样：先抽取初级单元，再从中抽取次级单元。
与规模大小成比例的概率抽样：常用于对企业或机构的抽样，规模越大，被抽中的概率越高。

所有这些方法，如果正确执行，都允许我们进行重复抽样解释。

非概率抽样的挑战与类型

另一方面，非概率样本也常被用于推断，但我们必须清楚其局限性。

正如之前提到的，对于非概率样本，无偏性和一致性等性质必须依赖于某种模型。我们的样本必须能够代表总体，即使它不是随机获得的。如果样本在覆盖面上存在严重缺陷（例如，缺少某个重要子群体），那么就很难证明估计量是针对我们感兴趣的总体。

以下是几种常见的非概率样本类型：

方便样本：例如，使用心理学导论课的所有学生作为实验对象。这些学生并不能代表国家甚至某个子群体的总体。
配额样本：例如，挨家挨户招募，直到获得指定数量的各年龄段人员。这可能无法很好地代表总体。
志愿者面板/河流样本：通过网站弹窗广告或特定网站招募志愿者。抽样者无法控制谁会出现在样本中。

响应与覆盖误差的影响

即使是概率样本，也可能因为无回答而面临严重问题。例如，在美国通过电话进行选举民调，可能只有约5%的响应率。如此低的响应率很难被视为一个良好的概率样本，并可能引入偏差。

此外，无论是概率还是非概率抽样，都可能存在覆盖误差（即抽样框未能完整覆盖目标总体）。覆盖可能不足或过度。

为了应对这些问题，我们采用一种称为利用辅助数据进行权重校准的方法。

权重校准

校准的目标是使用已知的总体辅助信息来调整样本权重。

我们需要的是目标总体的控制总量。我们可能不知道总体中每个个体的信息，但至少知道某些变量的总体总计（例如，全国分年龄、种族、性别的人口数）。

我们可以调整样本权重，使得这些控制变量的加权估计值与已知的总体普查值相匹配。用公式表示校准约束：

[
\sum_{i \in s} w_i x_{ki} = X_k \quad \text{对于所有控制变量} k
]

其中，(w_i) 是第i个样本单元的校准后权重，(x_{ki}) 是其第k个控制变量的值，(X_k) 是该变量的总体总量。

例如，对于人口调查，可以使用年龄、种族、民族和性别的普查计数作为校准变量。通过校准，我们希望样本能通过这些协变量投射到目标总体。这通常需要基于模型的解释。

校准后的权重至少能再现总体的控制总量，这是朝着正确方向迈出的一步，尽管不能保证对所有其他待估的Y变量都有效。

我们将在后续课程中学习如何具体进行权重校准。

总结

本节课中，我们一起学习了估计量的统计解释。我们了解到，在概率抽样中，解释基于重复抽样，并引入了无偏性和一致性的概念。对于非概率抽样，则必须依赖模型进行解释。我们还探讨了不同类型抽样的特点，以及响应误差和覆盖误差带来的挑战。最后，我们介绍了通过辅助数据校准权重这一重要技术，以改善样本对总体的代表性，为进行有效的统计推断奠定基础。

127：覆盖问题 📊

在本节课中，我们将学习调查研究中一个至关重要的问题：覆盖问题。我们将了解什么是覆盖不足与覆盖过度，它们如何影响调查结果，以及如何通过统计方法进行调整，以确保样本能有效代表目标总体。

覆盖问题是调查中的一个重大问题，值得深入探讨。我们需要将这个概念理解透彻。覆盖问题可能表现为覆盖不足或覆盖过度，我们需要对这两种情况都进行处理。

以下是覆盖过度的一些例子，我们之前也提到过：

你可能有一个包含已倒闭企业的企业名录框架。这属于覆盖过度，因为你包含了实际上已不属于当前研究总体的单元。
你可能有一个组织成员名单，其中包含了一些已退出的成员。这些人同样不符合调查资格。

处理这类问题的标准方法是：一旦确定某些单元不符合资格，就将它们从样本中剔除，并且在用于估计的样本计算中也排除它们。

另一个方向的问题是覆盖不足。例如：

一个志愿者网络调查小组可能遗漏了老年女性群体。
一个企业名录框架可能没有包含新近成立的企业。许多企业的变动性很大，例如餐馆的开业和倒闭非常迅速，因此很难维护一个实时更新的企业名录框架。所以，这是一个相当常见的问题，具体取决于你抽样的总体。

面对这些覆盖问题的例子，你可以采取以下两种策略之一：

重新定义目标总体：声明你的调查结果仅代表你能够覆盖到的那类单元。
进行统计调整：将你从中抽样的“覆盖总体”扩展到可能更大的“目标总体”。

回想一下我们之前看过的维恩图，重新审视这些图示会很有帮助。

我们感兴趣并试图估计的总体总值实际上由两部分组成。如果我们看“总体”与“抽样框”相交的部分，即图中灰色总体与矩形抽样框重叠的区域，这是我们实际从中抽取样本的部分。

而“总体减去抽样框”的部分，即图中总体在抽样框之外的部分，是我们没有抽取任何样本的部分。但如果我声称这些单元也是我研究总体的一部分，我就需要为这部分进行推断或预测。这就是推断问题：我们如何进行这种预测？

为了理解我们如何进行这种预测，再次审视总体总值估计量的形式会很有帮助。为了让样本能够有效地推断到完整的目标总体，样本在某种意义上需要遵循与完整总体相同的模型。这只是一种统计学的说法，即样本需要代表你所关注的目标总体，而这种代表性是我们将更详细探讨的“模型意义”上的代表性。

因此，我的估计量在概念上包含三个部分：

样本部分：对于落入我样本中的单元，我直接将它们的观测值 Y_i 相加，得到这部分的总值。
框内非样本部分：对于我的抽样框所覆盖、但未被抽中的总体部分，我需要为其中的每个单元 i 预测一个值 Ŷ_i，并将这些预测值相加。
框外部分：对于抽样框未能覆盖的总体部分，我需要（显式或隐式地）为这些我无法通过样本直接观测的单元构造预测值。

这正是统计估计发挥作用的地方。通常，我们会使用辅助数据。正如之前提到的，我们需要协变量。这些协变量需要同时与覆盖情况和我们试图测量的目标变量相关。此外，我们还需要图中所示总体 U 的准确总体总量信息。这就是我们试图在此达成的总体目标和基本框架。

本节课中，我们一起学习了调查中的覆盖问题。我们明确了覆盖不足与覆盖过度的概念及其例子，并探讨了通过重新定义总体或进行统计调整来解决这些问题的策略。关键点在于，为了从样本有效推断总体，我们需要利用辅助数据和模型，对未被样本直接覆盖的总体部分进行预测，从而构建一个完整的总体估计。理解这个框架对于设计严谨的调查和进行有效的分析至关重要。

128：精度提升方法

在本节课中，我们将学习如何利用辅助数据来提升调查估计的精度。我们将通过几个例子，了解如何借助变量之间的关系来获得更精确的估计结果。

利用定量辅助变量提升精度

上一节我们介绍了辅助数据的基本概念，本节中我们来看看如何具体应用。一个主要的应用场景是提升估计的精度。这里我将通过几个例子简要说明。

让我们看两张图。这两种情况都假设我们有一个单一的协变量 x。x 可以是一个定量变量，例如企业去年的员工数量。同时，我们有一个分析变量 Y，例如企业今年的员工数量。

在左侧的图中，我们可以看到 Y 和 X 之间存在一种近似线性的强相关关系。随着 X 增加，Y 也倾向于增加。我们可以利用这种强关系来改进我们的估计。
在右侧的图中，Y 和 X 之间仍然存在关系，但强度稍弱，因为数据点在我画的这条线上下更为分散。尽管如此，随着 X 上升，Y 仍然呈现上升趋势，我们在估计时当然也可以利用这一点。

因此，我们需要学习如何形式化地实现这一点。

利用分类辅助变量提升精度

协变量不一定是定量变量。分类变量同样可以非常有用。

这里有一个表格，展示了种族/民族（Hispanicity）和年龄组与接受医疗补助（Medicaid）比例之间的关系。Medicaid是美国针对低收入人群的医疗援助计划。

以下是表格数据的解读：

行变量：种族/民族（Hispanic, Non-Hispanic White, Non-Hispanic Black, Other）
列变量：年龄组（Under 18, 18-24, 25-44, 45-64, 65+）
单元格数值：该群体中接受Medicaid的百分比

从这个表格中，我们可以观察到一种梯度模式：

在18岁以下和65岁以上这两个极端年龄组，接受Medicaid的比例相对较高。
在工作年龄组（18-64岁），比例则显著降低，并且在白人和黑人群中，比例有从18-24岁到45-64岁逐渐降低的趋势。

这是一个典型的例子，说明一个二分类变量（是否接受Medicaid）与种族/民族、年龄等分类变量之间存在关系。我们可以在估计中利用这种关系来提高估计的精度。

总结

本节课中，我们一起学习了如何利用辅助数据提升估计精度。我们看到了无论是定量变量（如员工数量）之间的强线性关系，还是分类变量（如种族、年龄）与目标变量之间的关联模式，都可以被形式化地用于改进调查估计，从而得到更可靠、更精确的分析结果。关键在于识别并利用这些变量之间存在的系统关系。

129：课程5：模块1：加权对标准误的影响

在本节课中，我们将探讨调查设计中加权对标准误的影响。标准误是衡量估计值精确度的重要指标，而调查设计的多个方面都会对其产生影响。

上一节我们介绍了加权的基本概念和目的，本节中我们来看看加权如何具体影响估计的精确度。

影响标准误的设计特征

有多种调查设计特征会影响标准误，以下是主要的三类：

分层：高效的分层样本分配可以减少总体估计的标准误。分层设计的另一个用途是控制各层内估计的样本量和精确度。因此，在估计标准误时，我们需要同时考虑这两个方面。
整群抽样：整群抽样通常会增加标准误，但并非总是如此。如果你将测量特征上相似的单元聚集在一起，那么与单元完全独立且不整群的情况相比，你从相同样本量中获得的精确度会降低。整群对总体估计的影响可能不同于对域估计或子组估计的影响。此外，它对不同的测量变量、不同的统计量（如均值、模型参数估计）的影响也可能不同。
加权调整：加权调整可能增加或减少标准误，具体取决于调整的目的。例如，无回答加权调整通常会增加标准误。而如果你使用校准法将样本与总体控制变量对齐，并且这些协变量能较好地预测你试图测量的变量，那么这种校准可能会减少标准误。

总结

本节课中我们一起学习了调查设计中分层、整群和加权调整如何影响标准误。理解这些影响对于正确解释调查结果的精确度至关重要。在下一个模块中，我们将介绍实施加权所需的具体步骤。

130：模块2：概率抽样权重调整概述 🎯

在本节课中，我们将学习概率抽样调查中权重调整的核心步骤。权重调整是确保调查结果能够准确代表目标总体的关键过程。我们将通过一个清晰的流程图来理解从计算基础权重到最终校准的完整流程。

权重调整的四个基本步骤

上一节我们介绍了权重调整的重要性，本节中我们来看看其具体实施的四个基本步骤。虽然某些调查可能设计得更复杂，但这四个步骤构成了核心框架。

以下是概率抽样中通常遵循的四个步骤：

计算基础权重：这些权重是选择概率的倒数（公式：基础权重 = 1 / 选择概率）。此步骤仅适用于概率样本。
调整未知资格单元：对因无法联系等原因而无法确定其是否合格的单元进行权重调整。
调整无应答单元：对符合条件但未参与调查的单元进行权重调整，尝试通过加权来代表它们。
校准总体控制：利用外部辅助数据（如人口统计总量）对权重进行校准，以修正覆盖误差并提高估计精度。

权重调整实施流程图解

理解了基本步骤后，我们通过一个流程图来具体看看如何实施这些步骤。这个流程图清晰地展示了决策路径和数据管理要求。

流程始于第一步：计算基础权重。随后进入一个决策点。

如果存在未知资格的单元，则进入调整通道。在此过程中，需要调整已知合格单元的权重。同时，必须保留审计追踪记录：

以下是关键的数据管理操作：

存储未知资格单元的文件。
存储不合格单元的文件（如果发现）。

完成调整后，在步骤2C存储无应答文件。接着进入下一个决策点。

如果存在无应答单元，则调整合格应答者的权重，并在步骤3A存储无应答者文件。此步骤的输出是存储一份应答者文件，其权重已针对无应答和未知资格（如果存在）进行了调整。

随后流程来到另一个节点，评估是否使用辅助数据进行校准。

如果不使用辅助数据，则直接存储最终的应答者文件，流程结束。
如果使用辅助数据，则进行第四步：校准估计。这需要外部控制总量。一个需要注意的细节是：如果外部控制总量中包含了您认为不合格的单元，则必须将这些单元也纳入校准估计中，否则校准目标会偏大。

最后，存储完成所有调整后的最终应答者文件。

非概率样本的权重调整

之前我们详细讨论了概率样本的流程，本节中我们来看看非概率样本的情况。非概率样本的权重调整步骤有所不同，且更为有限。

首先，在传统概率抽样意义上，非概率样本没有基础权重，因为起始点就不是概率样本，因此没有选择概率可供求逆。

尽管如此，仍需识别并剔除不合格单元。在概率抽样中，“无应答”指被概率抽中的单元未作答；而在非概率抽样中，数据是以非概率方式收集的，因此无法进行完全相同的无应答调整。

不过，存在一些方法可以计算伪包含概率，类似于观察性研究中估计准分配概率的做法。从而可以得到一种伪基础权重。

对于非概率样本，最关键的一步可能是校准到总体控制总量。这主要是为了弥补非概率样本在覆盖范围上的固有缺陷，同时也能起到提高精度的作用。在概率样本中，校准也能发挥类似作用。

因此，非概率样本的权重调整只包含完整步骤的一个子集。我们的讨论将主要针对概率样本，但请记住，部分思路同样适用于非概率情况。

总结

本节课中我们一起学习了调查权重调整的完整流程。我们首先介绍了概率抽样的四个核心调整步骤：计算基础权重、调整未知资格、调整无应答以及校准总体控制。接着，我们通过流程图详细剖析了每一步的实施路径和必要的数据管理操作（如保存审计追踪文件）。最后，我们对比了非概率样本在权重调整上的不同之处，指出其步骤更少，且校准总体控制是其中尤为关键的一环。掌握这些步骤是进行严谨调查数据分析的基础。

131：基础权重计算 🧮

在本节课中，我们将学习如何为不同类型的抽样设计计算基础权重。基础权重是样本单元代表其所属总体单元数量的倒数，是后续加权调整的起点。

上一节我们介绍了基础权重的概念，本节中我们来看看具体的计算示例。

分层简单随机抽样示例

首先，我们来看一个分层简单随机抽样的例子。假设我们有一个由五个行业分层（制造业、零售业、批发业、服务业、金融业）构成的总体，我们需要从中抽取样本。

以下是各层的总体规模与样本量：

制造业：总体规模 600，样本量 50
零售业：总体规模 1200，样本量 50
批发业：总体规模 800，样本量 50
服务业：总体规模 2300，样本量 50
金融业：总体规模 500，样本量 50

基础权重的计算公式为：权重 = 层总体规模 / 层样本量。

根据此公式，我们得到各层的基础权重：

制造业权重：600 / 50 = 12
零售业权重：1200 / 50 = 24
批发业权重：800 / 50 = 16
服务业权重：2300 / 50 = 46
金融业权重：500 / 50 = 10

这意味着，在制造业层中，每一个被抽中的单位代表总体中的12个单位；在零售业层中，每一个被抽中的单位代表总体中的24个单位，以此类推。

一个重要的特性是：所有样本单元的基础权重之和等于总体规模。例如，制造业层权重总和为 12 * 50 = 600，将所有五层的权重总和相加，正好等于总体规模5000。在分层简单随机抽样中，这一特性总是成立。

与规模成比例的概率抽样示例

接下来，我们看一个与规模成比例的概率抽样示例。假设总体包含4所学校，学生总数200人，我们希望抽取一个样本量为2的PPS样本。

以下是各学校的学生数及计算过程：

学校A：学生数50，规模比例 50/200 = 0.25，选择概率 2 * 0.25 = 0.5，基础权重 1 / 0.5 = 2.0
学校B：学生数30，规模比例 30/200 = 0.15，选择概率 2 * 0.15 = 0.3，基础权重 1 / 0.3 ≈ 3.33
学校C：学生数20，规模比例 20/200 = 0.10，选择概率 2 * 0.10 = 0.2，基础权重 1 / 0.2 = 5.0
学校D：学生数100，规模比例 100/200 = 0.50，选择概率 2 * 0.50 = 1.0，基础权重 1 / 1.0 = 1.0

假设我们最终抽中了学校B和学校D。那么样本的基础权重分别为3.33和1.0，它们的总和是4.33，并不等于总体规模4（所学校）。在PPS抽样中，基础权重之和通常只是总体规模的一个估计，而非精确值。

两阶段抽样示例

最后，我们考察一个两阶段抽样的例子。我们沿用上例中的4所学校作为初级抽样单元，并采用PPS方法抽取了学校B和学校D。

现在，我们在每个被抽中的学校内进行第二阶段抽样：从学校B的30名学生中简单随机抽取10名；从学校D的100名学生中简单随机抽取10名。

以下是学生最终权重的计算过程：

学校B内的学生：
- 第一阶段选择概率（学校被抽中）：0.3
- 第二阶段条件选择概率（学生在校内被抽中）：10 / 30 ≈ 0.333
- 整体选择概率：0.3 * 0.333 = 0.1
- 基础权重：1 / 0.1 = 10
学校D内的学生：
- 第一阶段选择概率：1.0
- 第二阶段条件选择概率：10 / 100 = 0.1
- 整体选择概率：1.0 * 0.1 = 0.1
- 基础权重：1 / 0.1 = 10

可以看到，尽管两所学校的规模不同，但最终所有被抽中学生的基础权重都是10。这是因为学校规模（30和100）在计算条件概率时被抵消了。整体选择概率简化为：(样本学校数) * (每校学生样本量) / (学生总数) = 2 * 10 / 200 = 0.1。

这种设计被称为自加权样本，所有最终样本单元具有相同的权重。当没有先验信息表明某些子群对降低估计方差更有价值时，这种设计既方便又高效。

本节课中我们一起学习了三种常见抽样设计下的基础权重计算：在分层简单随机抽样中，权重之和精确等于总体规模；在与规模成比例的概率抽样中，权重之和是总体规模的估计；在特定设计的两阶段抽样中，可能得到所有单元权重相同的自加权样本，这为后续分析提供了便利。理解这些基础权重的计算原理，是进行正确调查推断的第一步。

132：无应答调整入门 🧩

在本节课程中，我们将学习调查数据分析中一个关键问题：无应答。我们将探讨数据缺失的几种机制，理解它们对调查结果的影响，并初步了解如何通过权重调整来应对无应答问题。

数据缺失机制

上一节我们介绍了调查中的无应答现象，本节中我们来看看如何从理论上理解它。首先，我们需要了解数据缺失的几种机制。这些机制描述了调查对象不回答问题的原因与我们所收集数据之间的关系。

以下是三种主要的数据缺失机制：

完全随机缺失：每个调查单位（如个人、企业）的应答概率完全相同。你可以将应答过程视为抽样的另一个阶段，类似于伯努利抽样。在这种情况下，应答者样本本身就可以被视为一个随机样本。
随机缺失：应答概率依赖于一些已知的协变量（如年龄、种族、教育水平）。只要我们在估计时能考虑到这些协变量，就可以进行合理的统计调整。
非随机缺失：应答概率不仅依赖于已知的协变量，还依赖于你试图测量的分析变量本身。例如，在政治民意调查中，一个人是否愿意回答可能取决于他打算投票给谁。这种情况最难处理，因为我们通常没有足够的信息来应对这种对分析变量本身的依赖。

随机性与确定性视角

在实践方法中，我们通常将单位是否应答视为一个随机或随机性事件。这与确定性视角形成对比，后者认为一个单位要么总是应答，要么总是不应答，概率为1。通过采用随机性思维，即使面对那些“坚决不合作”的应答者，只要他们能在统计意义上与某些愿意应答的群体进行“交换”，我们仍然可以运用数学工具进行有用的分析。

无应答调整的基本原理

我们已经定义了这些机制，那么具体该怎么做呢？假设单位 i 的应答概率为 π_i。

如果我们能估计出这个 π_i，那么我们可以创建一个调整后的权重。这个新权重的计算公式是：

调整后权重 = 1 / (选择概率 * 估计的应答概率)

这种方法被称为“准随机化”调整。当我们同时考虑随机抽样机制和这种随机应答机制时，使用此权重的估计量将是无偏或近似无偏的。

接下来的核心分析问题就是：如何估计每个单位的应答概率 π_i？这本质上是一个预测问题，即预测一个二值变量（应答=1，不应答=0）。在后续的视频中，我们将详细介绍估计 π_i 的具体方法。

总结

本节课中，我们一起学习了调查中无应答调整的入门概念。我们首先区分了三种数据缺失机制：完全随机缺失、随机缺失和非随机缺失，并理解了随机性视角在分析中的重要性。最后，我们介绍了无应答调整的基本原理，即通过估计每个单位的应答概率来调整原始权重，以获得更可靠的总体估计。掌握这些基础概念，是学习具体调整方法的关键第一步。

133：应答倾向建模与无应答调整

在本节课中，我们将学习如何估计无应答单元的应答倾向，并利用这些倾向进行无应答调整，以修正调查数据中的偏差。

概述

上一节我们介绍了无应答偏差的概念。本节中，我们将深入探讨一种具体的调整方法：基于应答倾向建模的分组调整法。这种方法的核心是建立一个模型来预测每个样本单元的应答概率，然后根据预测概率进行分组，并在组内进行统一的调整。

应答倾向建模的一般步骤

以下是进行应答倾向建模与调整的一般流程。

1. 建立二元回归模型

首先，我们需要建立一个二元回归模型来预测应答概率。模型的因变量是应答状态（1表示应答，0表示无应答）。自变量是可用于预测应答行为的协变量。这些协变量必须在应答者和无应答者上都没有缺失值。

常用模型：逻辑回归是最典型的选择。
其他模型：Probit回归、互补双对数回归也可使用。这些模型通常会给出相似的应答概率预测值。

模型的数学形式可以表示为：
P(Response=1 | X) = f(Xβ)
其中，f 是链接函数（如逻辑函数），X 是协变量向量，β 是模型系数。

2. 估计应答倾向并分组

拟合模型后，我们可以为所有样本单元（包括应答者和无应答者）计算出预测的应答概率（即应答倾向）。

接下来，我们根据这个预测概率对所有单元进行排序（从低到高）。然后，将排序后的单元划分为若干个组。

分组目的：将具有相似应答倾向的应答者和无应答者归入同一组。例如，在低应答倾向组中，同时包含预测概率最低的应答者和无应答者。
分组数量：5组是一个常见的选择，但并非固定不变。如果样本量足够大，创建更多组可以使组内倾向值的范围更小，从而形成更同质的组。

这种方法的优点是，我们创建了一个单一的变量（预测概率）来对样本进行排序和分组，它综合了多个协变量的信息，是一种高效的汇总方法。

3. 组内调整

分组完成后，我们在每个组内应用一个统一的无应答调整因子。

调整方法：在同一个组内，我们可以使用未加权的应答率、调查加权的应答率、组内平均倾向值或中位数倾向值作为调整因子。如果组内倾向值范围很小，这些方法的结果会非常接近。
调整作用：使用单一的组内调整因子，可以平滑掉二元回归模型可能产生的极端倾向值的影响。这通常被认为是有益的，因为我们未必完全信任模型的预测。

这种思路借鉴了Rosenbaum和Rubin为观察性数据分析开发的倾向得分匹配方法，本质上是为无应答分析创建了一个“伪分配概率”。

软件实现

在实际操作中，我们可以借助统计软件来自动完成上述建模、预测和分组的过程。在后续课程中，我们将看到一些能够执行这些步骤的软件工具。

总结

本节课我们一起学习了基于应答倾向建模的无应答调整方法。我们首先通过二元回归模型预测每个样本单元的应答概率，然后根据预测概率进行分组，使组内单元具有相似的倾向。最后，在每个组内应用统一的调整因子来修正无应答偏差。这种方法通过综合多个变量信息并平滑极端值，为处理调查数据中的无应答问题提供了一种稳健的解决方案。

134：树算法 📊

在本节课中，我们将学习一种用于估计无回答调整倾向得分的替代方法：树算法。我们将探讨其基本思想、工作原理、具体算法（如CART）以及更高级的变体（如随机森林和提升法），并分析其优缺点。

树算法的基本思想 🌳

上一节我们介绍了使用逻辑回归估计倾向得分。本节中，我们来看看另一种灵活的方法：树算法。

树算法的核心思想是，将二元响应变量（如回答/无回答）在协变量上进行回归，但以一种逐步的、分而治之的方式进行。算法从响应或非响应状态开始，选择它认为最佳的协变量，将数据集分割成子集，并持续分割每个子集，最终形成一个树状结构。这个结构的末端称为终端节点，这些节点就构成了无回答调整的单元格。

这种方法非常灵活，其一大优点是能自动选择使用的协变量，并隐含地创建变量间重要的交互作用。相比之下，逻辑回归需要你预先指定所有可能重要的交互项。

分类与回归树 📈

最直接简单的树算法是分类与回归树。它基于协变量，以最大化二元变量对数似然的方式，逐步将数据分割成两部分。在每一步，算法可以从众多可用协变量中选择一个，也可以对之前使用过的协变量进行不同的分割，方式非常灵活。

以下是一个使用R语言rpart包中kyphosis数据集的例子。该数据集涉及脊柱异常弯曲，本例目标是建模矫正手术后异常弯曲是否仍然存在。我们使用两个变量：

Start: 手术涉及的最顶端椎骨数量。
Age: 手术发生时的年龄（月）。

算法通过选择协变量来预测术后异常是否存在，并生成如下分割：

首先根据Start（手术椎骨数）是否 ≥ 8.5（即9块或更多）进行分割。
对于Start ≥ 8.5的分支，所有案例术后均存在异常。
对于Start < 8.5的分支，进一步根据Start是否 ≥ 14.5（即15块或更多）进行分割。
在Start < 8.5 且 Start < 14.5的分支中，再根据Age（年龄）是否 < 55个月进行分割。
最终，算法生成多个终端节点，每个节点代表一个预测类别（异常存在或缺失的多数情况）。

如何应用于无回答调整？
我们从顶部的回答者和无回答者集合开始，希望预测“回答”这个状态。基于可用协变量，算法会绘制类似的树状图，底部的这些终端节点或“分箱”就是我们的无回答调整单元格。

树算法的优缺点 ⚖️

以下是CART树算法的主要优缺点：

优点：

易于理解和解释：可以绘制图形，便于向他人说明。
自动选择变量和交互项：无需手动指定。
自动处理变量类型：无论协变量是分类、连续还是分组数据，算法都能自动处理，无需担心初始编码方式。

缺点：

预测准确性可能不如其他算法：这是CART的一个主要缺点。在许多实证例子中，一个树模型在特定数据集上拟合得很好，但应用到新数据时预测性能可能下降（即方差较大）。
其他算法通过各种方式旨在减少这种预测方差。

更高级的树算法 🌲

为了克服CART的缺点，发展出了多种改进算法，主要由斯坦福大学和伯克利大学的学者（如Friedman, Breiman等）开发。

以下是两种主流的高级树算法：

1. 随机森林
这种方法通过以下方式工作：

从初始样本中抽取大量Bootstrap训练样本（有放回的子样本）。
为每个Bootstrap样本拟合一棵树，并且在构建每棵树时，随机选取一个协变量子集。
这样做的目的是降低树与树之间的相关性。如果所有树使用相同的协变量集，它们会倾向于首先选择最强的变量，导致树之间差异不大。
最终，对每个样本单元，使用所有树的平均预测概率作为其无回答倾向得分估计。由于树之间的相关性较低，这个平均值的精确度会更高。

2. 提升法
提升法的工作方式是组合大量树，类似于随机森林：

从一个训练样本开始，先拟合一棵小树。
然后逐渐添加树木，不断改进模型。
同样，对每个案例，使用在所有拟合的树上的平均预测概率。

随机森林和提升法的注意事项：
这两种方法的一个小缺点是，你无法像CART那样绘制出清晰的、代表调整单元格的树形图。但是，它们能为样本中的每个单元提供一个预测的倾向得分，这正是无回答调整所需要的。此外，这些算法还能提供协变量重要性度量，让你了解是哪些变量在驱动预测，这非常有用。

总结与预告 📝

本节课我们一起学习了用于无回答调整的树算法。我们从基本的CART算法开始，了解了其通过递归分割形成调整单元格的原理和直观解释。接着，我们讨论了CART的优缺点，并介绍了为提升预测稳定性和准确性而发展的更高级算法——随机森林和提升法。

在后续视频中，我们将介绍可以实现这些算法的软件。在下一个视频中，我们将概述校准方法，这是我之前 outlined 的权重调整四个步骤中的第四步。

135：加权与校准 📊

在本节课中，我们将要学习调查数据处理的最后一个通用步骤——校准。我们将了解其核心思想、优势、如何选择协变量，并介绍几种具体的校准方法。

上一节我们介绍了加权处理中的无应答调整，本节中我们来看看加权过程的最后一步：校准。校准的核心思想是利用协变量数据，同时校正覆盖误差并降低标准误差。

为了实现这一目标，校准方法会利用已知的总体或普查总量数据。这种方法的一个显著优势是：我们只需要知道样本中受访者的协变量具体数值，而无需知道那些未应答单元或未被抽中单元的具体信息。我们只需要掌握这些协变量在总体中的合计值即可。

为什么这是一个优势？因为它允许我们使用比无应答调整更广泛的协变量集合。因为在无应答调整中，我们必须同时知道应答者和无应答者的协变量值。通常，我们很难拥有一个既适用于应答者又适用于无应答者的大规模协变量集。相反，基于普查数据，我们可能掌握许多不同协变量的总体信息。

如何选择协变量？

选择协变量时，应遵循以下两个原则：

协变量应与“被抽样框覆盖的可能性”相关。
协变量应与“分析变量”相关，即能较好地预测分析变量。

理想情况下，选择的协变量应同时满足以上两点。

具体的校准方法

以下是几种属于校准类别的具体方法：

1. 事后分层
事后分层可能是最简单的一种方法。在样本被抽取、数据被收集之后，你将应答者分类到不同的组中（因此称为“事后”）。然后调整权重，使得每个事后层内的权重之和等于该层协变量对应的总体总量。这些事后层的定义就构成了协变量。

示例：在一项家庭调查中，我们可以按“年龄×种族×性别”进行事后分层。
要求：要实施事后分层，我们必须拥有这个多维交叉分类的普查计数，并且这些数据的时间点必须与调查时期非常接近，否则我们就是在调整到一个与调查数据集不可比的总量上。

2. 边缘加权
边缘加权法只需要知道协变量的边缘计数（即单变量分布的总量）。在事后分层的例子中，我需要“年龄×种族×性别”的三维交叉表。但如果使用边缘加权法，我只需要年龄、种族、性别的各自边缘普查计数，而不需要完整的交叉表。

实际优势：即使你拥有三维交叉的总体计数，你的样本在某些交叉单元格中的数量可能非常少甚至为零。但边缘加权法不会受此限制，因为你的样本在各边缘分类上的数量可能足够。

3. 广义回归估计量
广义回归估计量的核心思想本质上是利用回归模型来预测非样本单元的值。

优势：它允许混合使用定性和定量变量作为协变量。
示例：在一项学校调查中，我们可以使用的协变量包括：学生数量、享受免费或减价午餐的学生百分比。我们还可以为每所学校设置年级指标（例如，是否覆盖6-9年级、9-12年级等），将这些指标作为协变量。
灵活性：这种混合使用定性与定量协变量的能力，使得广义回归估计量成为一个非常灵活的选择。

本节课中我们一起学习了调查数据加权处理的校准步骤。我们了解到，校准利用已知的总体协变量信息来同时改善覆盖误差和估计精度。其关键优势在于仅需样本单元的协变量具体值。我们探讨了选择协变量的原则，并介绍了三种主要的校准方法：事后分层、边缘加权和广义回归估计量，每种方法各有其适用场景和优势。掌握这些方法有助于我们根据实际数据情况，选择最合适的工具来提升调查估计的质量。

136：软件工具 🛠️

在本节课中，我们将学习在调查数据收集与分析中可用的软件工具。我们将概述多种软件选项，并重点介绍本课程将使用的核心工具及其相关资源。

软件概览

上一节我们介绍了调查设计的一般步骤，本节中我们来看看如何实际执行这些步骤。我将提供多个软件示例。

首先，我想概述一下可用的软件。本课程将重点强调 R 及其内部可用的一些软件包。

核心工具：R 及其生态

R 的一大优点是它是免费的。价格合适，您可以在 r-project.org 这个网站下载。这包括基础包和用户编写的附加包。

截至 2016 年春季，在 CRAN（综合 R 档案网络）上已有超过 8,000 个用户编写的 R 包可供免费下载。它们能完成许多非常有用的任务。

本课程将使用其中的三个包：

sampling
survey
PracTools

我将展示使用所有这些包的示例。

R 代码编辑器

那么，如何在 R 中编辑代码文件呢？有以下几种选择：

以下是几种流行的 R 代码编辑器选项：

RStudio：非常流行且优秀。
WinEDT：这是一个共享软件包，相当常见，因为您也可以在 WinEDT 中编辑 LaTeX 文件并进行编译。为了充分发挥 WinEDT 的优势，您应该下载 RWinEdt 包，它能使 WinEDT 和 R 紧密链接在一起。您可以在编辑器窗口中高亮代码，然后直接发送到 R 控制台执行。RStudio 也具备此功能。
Tinn-R：这是另一个共享软件包，具备一些相同的功能。

您可以决定最喜欢哪一个并做出选择。

其他商业软件

现在还有其他可用的商业软件包。

以下是几种商业调查分析软件：

SAS：这是一个知名的大型软件，具备一些调查分析功能。
Stata：另一个优秀的商业软件包，其功能比 SAS 更多。事实上，它拥有许多在其他软件包中找不到的分析功能，其中许多功能建立在计量经济建模例程之上。
SUDAAN：通常与 SAS 结合使用。因此，最方便的方式是同时拥有 SAS 许可证和 SUDAAN 许可证才能使用它。
WestVar：这是一个围绕复制方差估计构建的免费软件。它由华盛顿特区的一家商业公司 Westat 编写，可在 Westat 公司的网站上免费下载。

课程示例与参考资源

在接下来的视频中，我们将进行大量示例演示，其中许多基于此处列出的 Springer 教科书：《Practical Tools for Designing and Weighting Survey Samples》（2013 年出版）。我恰好对这本书很熟悉，因为我是第一作者。这本书是与 Jill Dever 和 Frauke Kreuter 合著的，正如您现在所知，Frauke Kreuter 也是这门 Coursera 序列课程“调查方法与数据收集”的联合讲师。

本节课中我们一起学习了调查数据分析中可用的主要软件工具。我们重点介绍了免费的 R 语言及其强大的包生态系统，并简要概述了其他商业和免费软件选项。了解这些工具将帮助您在后续课程中更有效地进行数据分析和样本加权。

137：基础权重详解 🧮

在本节课中，我们将通过一个软件示例，学习如何选择分层简单随机样本，并计算其基础权重。我们将使用R语言及其sampling包来完成这一过程。

概述

我们将使用R语言中的sampling包，该包由两位瑞士统计学家Tillé和Matei开发，提供了丰富的抽样功能。具体步骤包括：安装并加载必要的包、准备数据、执行分层抽样、计算基础权重，并进行验证。

数据准备与检查

首先，我们需要安装并加载sampling和PracTools包。PracTools包中包含一个名为NHIS的数据集，这是美国国家健康访谈调查的一个小型子集。

# 安装并加载必要的包
require(sampling)
require(PracTools)

# 加载数据
data(NHIS)

我们将使用数据集中的educ_r变量（教育水平）作为分层依据。在分层之前，必须确保该变量没有缺失值，并且每个层级都有足够的观测值。

以下是检查变量分布和缺失值的代码：

# 检查educ_r变量的分布，并显示缺失值
table(NHIS$educ_r, useNA = "always")

# 另一种等效的检查方式（在attach数据后）
attach(NHIS)
table(educ_r, useNA = "always")

执行上述代码后，如果输出显示缺失值（NA）数量为0，并且每个教育层级都有合理的观测数量，则说明数据适合用于分层抽样。

执行分层简单随机抽样

接下来，我们需要按分层变量对数据集进行排序，然后使用sampling包中的strata函数进行抽样。

以下是具体步骤：

首先，按教育水平对数据进行排序。

# 按分层变量对数据集进行排序
NHIS <- NHIS[order(NHIS$educ_r), ]

然后，使用strata函数进行分层抽样。我们设定从每个层（教育水平）中抽取3个样本单位，采用不放回简单随机抽样方法。

# 执行分层简单随机抽样
set.seed(123) # 设置随机种子以保证结果可重复
samp <- strata(NHIS, stratanames = "educ_r", size = rep(3, 4), method = "srswor", description = TRUE)

参数说明：

stratanames: 指定分层变量的名称。
size: 一个向量，指定从每个层中抽取的样本数量。rep(3, 4)表示从4个层中各抽3个。
method: 抽样方法，"srswor"代表不放回简单随机抽样。
description = TRUE: 要求输出抽样的详细信息。

函数执行后，会输出一个包含样本单位ID、所属层以及每个单位被抽中的概率的数据框。这个概率是计算基础权重的关键。

计算基础权重

基础权重是每个样本单位代表总体中多少个单位的度量，其计算公式为样本单位入样概率的倒数。

在R中，我们可以直接从抽样结果中提取概率并计算权重：

# 计算基础权重：权重 = 1 / 入样概率
samp$weight <- 1 / samp$Prob

现在，samp数据框中新增了一列weight，即为每个样本单位的基础权重。

权重验证

计算权重后，进行验证是良好的实践。我们可以通过两种方式验证权重的正确性。

1. 权重总和应等于总体单位数

对于分层简单随机抽样，所有样本权重的总和应恰好等于总体中的单位总数。

# 检查权重总和是否等于总体单位数
sum(samp$weight)

如果输出结果等于原始NHIS数据集的行数（例如3911），则验证通过。

2. 各层权重总和应等于各层的总体单位数

我们还可以按层分别汇总权重，其总和应等于各层在总体中的原始数量。

# 按层汇总权重，检查是否等于各层总体数量
by(samp$weight, samp$educ_r, sum)

执行此命令后，输出的每个层的权重总和，应与最初table(NHIS$educ_r)命令显示的该层观测数量完全一致。

确保结果可重复性 🔁

在测试或需要复现相同样本时，设置随机数种子至关重要。R使用一个名为.Random.seed的向量来生成随机数。

在每次执行抽样代码前，使用set.seed()函数并指定一个相同的数字，可以确保每次抽到的样本完全相同。

# 在抽样前设置随机种子
set.seed(20231027) # 可以使用任意整数

# 然后再次执行相同的strata函数
samp_repeat <- strata(NHIS, stratanames = "educ_r", size = rep(3, 4), method = "srswor")

这样，无论运行多少次，samp_repeat中的样本单位都会保持一致。这对于调试代码和确保分析的可重复性非常有用。

总结

本节课中，我们一起学习了在R环境中实现分层简单随机抽样并计算基础权重的完整流程。关键步骤包括：

准备与检查数据：确保分层变量无缺失且分布合理。
执行抽样：使用sampling::strata函数，按设定数量从各层抽取样本。
计算权重：基础权重 = 1 / 入样概率。
验证权重：检查权重总和与分层总和是否符合预期。
确保可重复性：使用set.seed()函数固定随机数种子。

掌握这些步骤，你就能为复杂抽样设计的数据分析打下坚实的基础。

138：基础权重进阶

在本节课程中，我们将通过一个具体示例，深入探讨如何计算基础权重。我们将使用R软件，基于一个包含医院床位和支出数据的真实数据集，演示如何执行与规模成比例的概率抽样。此外，我们还将简要讨论如何处理非概率样本的权重问题。

示例：SMMHO人口数据集

上一节我们介绍了基础权重的概念。本节中，我们来看看一个具体的计算示例。我们将使用R语言中的PracTools包，它包含一个名为“SMMHO”的数据集，代表“调查心理健康组织”。我们将从这个数据集中抽取一个与规模成比例的概率样本。

首先，我们需要加载必要的R包并查看数据。

# 加载必要的包
library(PracTools)
library(sampling)

# 加载数据集
data("SMHO98")

该数据集包含了多家医院的床位数量和支出总额信息。我们的目标是估计这些医院的总支出。Y轴代表支出（百万美元），X轴代表医院的床位数。值得注意的是，并非所有医院都有住院床位，有些床位数可能为零。

准备度量规模变量

在PPS抽样中，我们需要一个度量规模的变量。这里我们使用“床位数”。然而，对于床位数小于或等于5（包括0）的医院，我们需要进行重新编码，以确保它们有被抽中的机会。

以下是处理步骤：

# 将床位数赋值给变量‘size’
size <- SMHO98$beds

# 将床位数小于等于5的医院，其规模变量重新编码为5
size[size <= 5] <- 5

这样处理确保了所有医院都有非零的被选概率。

计算入样概率

接下来，我们使用sampling包中的inclusionprobabilities函数来计算每个医院的入样概率。我们设定样本量为10。

# 设定样本量
n <- 10

# 计算入样概率
pk <- inclusionprobabilities(size, n)

# 查看入样概率的摘要
summary(pk)

函数会自动处理那些规模过大、入样概率为1的“必然入样”单位，并重新计算其余单位的相对规模。在本例中，由于样本量较小，没有出现必然入样单位。

抽取系统PPS样本

为了确保结果可复现，我们设置随机种子，然后使用UPsystematic函数进行系统PPS抽样。

# 设置随机种子以确保结果可复现
set.seed(12345)

# 进行系统PPS抽样
sam <- UPsystematic(pk)

# 从总体中提取样本数据
samd <- getdata(SMHO98, sam)

计算并附加基础权重

基础权重是入样概率的倒数。我们为样本中的单位计算权重，并将其添加到样本数据框中。

# 计算权重：1/入样概率，仅针对样本中的单位
samd$weight <- 1 / pk[sam == 1]

# 查看前几个样本单位及其权重
head(samd, 3)

现在，样本数据框中包含了每个样本医院的标识、床位数、支出以及计算出的基础权重。

关于多阶段抽样的说明

sampling包也支持多种多阶段抽样设计。一种清晰易懂的方法是：

使用该包抽取第一阶段单位（群）。
提取这些样本群的数据。
将这些群视为“层”，使用strata函数在群内进行分层抽样。
这种方法在概念上更直接，便于追踪各阶段的入样概率。

其他软件选择

除了R，其他统计软件也提供了抽样功能：

SAS：拥有PROC SURVEYSELECT过程，可以抽取多种样本类型。
Stata：基础包可以轻松抽取简单随机样本，也有用户编写的包支持更复杂的抽样设计。
UCLA统计咨询网站：这是一个极佳的资源，提供了关于SAS、Stata、R（特别是survey包）等软件在各种统计应用中的详细教程和示例。

非概率样本的权重处理

对于非概率样本，由于没有明确的入样概率，我们无法像概率样本那样计算基础权重。一种处理方法是计算“准随机化权重”。

以下是主要步骤：

获取参考样本：这可以是人口普查微观数据、一个独立抽取的小型概率样本，或一个现有的大型概率样本。最后一种选择通常更便捷经济。
合并样本：将你的非概率样本与参考样本合并。
运行逻辑回归：以合并后的数据，建立一个逻辑回归模型，预测一个观测值属于非概率样本的概率。
计算伪权重：将这个预测概率视为一种“伪入样概率”，其倒数可作为非概率样本的“伪基础权重”。

需要注意的是，根据经验，为了使这种方法有效，参考样本和非概率样本都需要包含广泛且一致的协变量（如教育程度、收入水平等），而不仅仅是年龄、种族和性别。

总结

本节课中，我们一起学习了基础权重的进阶应用。我们通过一个R语言实例，完整演示了如何为PPS抽样计算和附加基础权重。我们还简要介绍了在其他软件（如SAS和Stata）中实现抽样的方法，并探讨了处理非概率样本权重的“准随机化”思路。在接下来的视频中，我们将进一步学习无回答调整和校准等步骤的软件实现。

139：无应答调整方法 📊

在本节中，我们将学习如何使用响应倾向类别进行无应答调整。这种方法通过估计样本单元的应答概率，并将它们分组，从而对调查权重进行调整，以弥补因部分样本未应答而可能导致的偏差。

上一节我们介绍了无应答调整的基本概念，本节中我们来看看如何具体实施基于响应倾向类别的调整方法。

核心概念与步骤

其核心思想可总结为以下步骤：

估计响应倾向：使用模型（如逻辑回归）为每个样本单元估计一个应答概率。
排序与分组：将估计出的倾向得分从低到高排序，并将整个样本（包括应答者和无应答者）划分为若干个类别。关键点在于，每个类别中的初始样本单元总数应大致相等。
计算调整因子：在每个类别内部，计算一个统一的调整因子（如该类的平均应答率）。
调整权重：对每个类别内的应答者，将其基础权重乘以该类调整因子的倒数。

公式：对于类别 k 中的应答者 i，其调整后权重为：
调整后权重_i = 基础权重_i * (1 / 调整因子_k)

此方法适用于概率样本，也可用于计算非概率样本的准随机化权重。

使用R软件实现

我们将使用 PracTools 包中的 pclass 函数来完成这一过程。以下是具体操作步骤。

首先，加载必要的包和数据。

require(PracTools)
data(nhis)

接下来，我们调用 pclass 函数来创建响应倾向类别。我们使用逻辑回归模型，以年龄、性别、西班牙裔身份和种族作为预测变量。

out <- pclass(formula = resp ~ age + factor(sex) + factor(hisp) + factor(race),
              data = nhis,
              type = "unweighted",
              link = "logit",
              numcl = 5)

参数说明：

formula: 定义逻辑回归模型。
data: 使用的数据集。
type: 指定为“unweighted”进行未加权回归，若数据有权重则可选“weighted”。
link: 指定连接函数，此处为“logit”。
numcl: 指定要创建的类别数量，此处为5。

检查分类结果

创建类别后，我们需要检查分类是否合理。

查看每个类别分配的样本数量及倾向得分范围：

table(out$pclass)

此命令输出一个表格，显示五个类别各自的倾向得分范围和样本数量。目标是每个类别的总样本量大致相等。

确认所有样本都被分配了类别：

sum(is.na(out$pclass))

结果应为0，表示无缺失值。

查看倾向得分的总体分布：

summary(out$propensities)

这将显示所有样本单元倾向得分的最小值、最大值和分位数，帮助我们了解得分的分布范围。

我们还可以通过箱线图直观查看每个类别内倾向得分的分布：

boxplot(out$propensities ~ out$pclass,
        xlab = "Propensity Class",
        ylab = "Estimated Response Propensity")

从箱线图中，我们可能会发现某些类别（尤其是低倾向类别）内得分的分布范围较广，存在离群值。这引出了下一个关键点：在类别内部，是使用统一的调整值，还是使用每个样本个体估计的倾向得分？

选择类别内的调整因子

由于模型拟合可能不完美，直接使用个体倾向得分进行调整风险较高。更稳健的做法是在每个响应倾向类别内部使用一个统一的调整值。

以下是几种常用的统一调整值计算选项：

未加权平均倾向：使用模型估计的该类内所有样本倾向得分的平均值。
加权平均倾向：使用基础权重加权的倾向得分平均值。
中位数倾向：使用该类内倾向得分的中位数（如上文箱线图中的黑线）。
未加权应答率：该类内应答者数量除以总样本数量。
加权应答率：使用基础权重计算的加权应答率。

选择其中一种方法，然后将该类内每个应答者的输入权重乘以该调整值的倒数。

以下代码演示如何计算和比较前三种选项：

# 计算每个类别的未加权平均倾向
mean_adj <- by(data = out$propensities,
               INDICES = out$pclass,
               FUN = mean)

# 计算每个类别的中位数倾向
median_adj <- by(data = out$propensities,
                 INDICES = out$pclass,
                 FUN = median)

# 计算每个类别的加权应答率 (需要原始数据中的权重和应答变量)
weighted_rr <- by(data = data.frame(resp = nhis$resp),
                  INDICES = out$pclass,
                  FUN = function(x) weighted.mean(x$resp, w = nhis$svywt))

# 将结果合并查看
round(cbind(mean = mean_adj, median = median_adj, weighted_RR = weighted_rr), 3)

比较不同方法得出的调整因子。通常它们差异不大，分析师可以根据实际情况或偏好进行选择。有理论和实证研究表明，使用未加权应答率可能是一个简单有效的选择。

其他方法与总结

除了基于逻辑回归的响应倾向类别法，之前提到的回归树也是创建调整类别的有效算法。它通过递归分割样本来自动寻找最佳分组，同样值得考虑。

本节课中我们一起学习了无应答调整的响应倾向类别法。我们了解了其核心步骤：估计倾向、排序分组、计算统一调整因子并调整权重。通过R语言的 PracTools 包，我们实践了如何创建倾向类别、检查分组效果，并探讨了类别内不同调整因子的选择。最后，我们提到了回归树作为另一种可行的调整方法。掌握这些方法有助于在数据分析中更有效地处理无应答偏差。

140：校准实例 🎯

在本节课中，我们将学习校准方法，重点介绍事后分层。校准的核心思想是，我们从一个初始的样本权重集合出发，然后以特定的方式调整这些权重，以利用辅助信息减少方差或修正覆盖误差。

上一节我们介绍了校准的基本概念，本节中我们来看看一个具体的校准方法——事后分层。

校准的起点与目标

校准过程始于一组输入权重。

在概率样本中，输入权重可以是考虑了无回答和未知资格情况的基础权重。
在非概率样本中，由于没有重复抽样的权重，我们可以将所有单元的初始权重设为1，或者使用之前讨论过的准随机化权重。

校准的目标是利用辅助变量来减少估计的方差或修正覆盖误差。为了实现这一点，我们需要知道所使用的每一个辅助变量的总体总量。

以下是几种常见的校准方法：

事后分层：最简单且常用的一种。
边缘加权：与事后分层类似，但处理方式不同。
广义回归估计：更为通用，因为它能同时处理定性和定量变量。通常，事后分层和边缘加权主要基于分类或定性变量。

事后分层估计量

现在，我们来看事后分层估计量的公式。如果我们想估计一个总体总量，可以这样做：

公式：
[
\hat{T}{ps} = \sum^{G} N_\gamma \left( \frac{\hat{T}{y\gamma}}{\hat{N}\gamma} \right)
]

代码解释：

# 假设有G个事后层
# N_gamma: 第gamma层的已知总体单元数（控制总量）
# T_hat_y_gamma: 基于输入权重估计的第gamma层中变量y的总量
# N_hat_gamma: 基于输入权重估计的第gamma层单元数
# 事后分层估计的总量即为各层调整后估计量之和

其中：

( \gamma ) 从1到 ( G )，代表事后层。这些层是互斥且覆盖整个总体的分组。
( N_\gamma ) 是第 ( \gamma ) 个事后层的总体控制总量，我们需要从普查或其他外部数据源获得。
( \hat{T}_{y\gamma} ) 是基于输入权重对分析变量 ( y ) 在第 ( \gamma ) 层中总量的估计。
( \hat{N}_\gamma ) 是基于输入权重对第 ( \gamma ) 层中单元数量的估计。

更具体地定义：

( \hat{T}{y\gamma} = \sum d_i y_i )，即对属于第 ( \gamma ) 层样本 ( s_\gamma ) 中的所有单元，将其输入权重 ( d_i ) 与数据 ( y_i ) 相乘后求和。
( \hat{N}\gamma = \sum d_i )，即对第 ( \gamma ) 层中所有样本单元的输入权重求和。

在这个公式中，比率 ( \frac{\hat{T}{y\gamma}}{\hat{N}\gamma} ) 估计的是第 ( \gamma ) 层内每个单元的平均y值。然后，将这个平均值乘以该层的已知总体单元数 ( N_\gamma )，就得到了该层调整后的总量估计。最后，将所有层的结果相加，就得到了对总体总量的估计。

事后分层的隐含权重

事后分层估计量对应着一组隐含的调整后权重，这非常有用。其定义如下：

公式：
[
w_i^{ps} = d_i \times \left( \frac{N_\gamma}{\hat{N}_\gamma} \right) \quad \text{对于 } i \in \text{事后层 } \gamma
]

这个调整因子 ( \frac{N_\gamma}{\hat{N}_\gamma} ) 被称为事后分层比率。它的作用很直观：

如果样本存在覆盖不足（即 ( \hat{N}\gamma < N\gamma )），这个比率将大于1，从而放大输入权重，以弥补覆盖不足。
如果存在覆盖过度（即 ( \hat{N}\gamma > N\gamma )），这个比率将小于1，从而缩小输入权重。

因此，这种方法能直观地朝修正覆盖误差的方向调整权重。

注意事项与灵活性

关于事后分层，有几点需要注意：

“事后”的含义：之所以称为“事后”层，是因为这些分层是在样本被抽取之后，甚至在数据被收集之后才应用。如果在设计样本时就使用了这些分层，它们就只是常规的设计层，而非事后层。
分层的灵活性：事后分层不仅限于基于单一变量（如年龄）进行分层。你可以创建复合的或交互的分层变量，例如“年龄组×性别”的交叉分组，并将这些交叉组定义为事后层。这在定义上提供了相当大的灵活性。
样本量限制：这种灵活性受到样本量的限制。你不应该创建一个只有少数几个样本单元的事后层。通常认为每层至少有30个样本单元是比较好的，尽管这个标准因人而异。

本节课中我们一起学习了校准的核心思想，并深入探讨了事后分层这一具体方法。我们了解了其公式、隐含权重的计算方式以及在实际应用中的注意事项。在下一个视频中，我们将学习如何使用R软件来具体实现事后分层校准。

141：事后分层软件实现 📊

在本节中，我们将学习如何在R软件中实际实现事后分层。我们将使用R的survey包，通过一个具体的数据集示例，演示如何定义调查设计、计算事后分层权重，并比较分层前后估计值的变化。

概述

我们将使用R的survey包，对名为apiclus1的数据集进行事后分层。整个过程包括加载数据、定义调查设计对象、指定总体辅助变量的总数，最后应用事后分层并分析结果。

软件实现步骤

以下是实现事后分层的具体步骤。

1. 加载必要的包和数据

首先，需要加载survey包并指定要使用的数据集。

require(survey)
data(api)

2. 定义调查设计对象

在使用任何处理调查数据的软件时，都必须告知软件调查的设计特征。在R的survey包中，我们使用svydesign函数来定义。

dclus1 <- svydesign(id = ~dnum, weights = ~pw, data = apiclus1, fpc = ~fpc)

id = ~dnum: 指定初级抽样单位（PSU）或聚类变量。这里dnum代表学区编号。
weights = ~pw: 指定权重变量。
data = apiclus1: 指定使用的数据集。
fpc = ~fpc: 指定有限总体校正（FPC）变量。

注意：~符号在R中用于定义公式。id、weights和fpc参数需要以公式形式给出（前面加~），而data参数则不需要。

3. 指定总体辅助变量总数

接下来，需要为我们用于事后分层的总体辅助变量指定已知的总体总数。这里我们以学校类型（stype）为例。

pop.types <- data.frame(stype = c("E","H","M"), Freq = c(4421, 755, 1018))

这创建了一个数据框，其中stype列是学校类型（E：小学，H：高中，M：初中），Freq列是每种类型在总体中的学校数量。

4. 应用事后分层

现在，我们可以对之前定义的设计对象应用事后分层。

dclus1p <- postStratify(design = dclus1, strata = ~stype, population = pop.types)

design = dclus1: 指定要处理的设计对象。
strata = ~stype: 指定用于分层的变量（公式形式）。
population = pop.types: 指定包含总体总数的数据框。

执行此命令后，R会计算事后分层权重，并将所有信息保存到新对象dclus1p中。

5. 检查权重变化

为了查看事后分层对权重的影响，我们可以比较分层前后的权重。

# 提取并总结分层前后的权重
weights_original <- weights(dclus1)
weights_poststratified <- weights(dclus1p)

summary(weights_original)
summary(weights_poststratified)

在原始设计对象dclus1中，所有权重可能相同（例如，这是一个等概率样本）。在事后分层对象dclus1p中，权重会根据样本在学校类型中的非比例分配情况进行调整，从而分散在一个范围内（例如从30.7到53.93）。这种调整旨在修正覆盖误差，并有望降低方差。

结果比较与分析

上一节我们完成了事后分层的实施，本节中我们来看看分层如何影响具体的估计值，例如均值和总值。

估计均值的变化

首先，我们使用svymean函数来估计变量enroll（注册学生数）的均值。

# 分层前的均值估计
mean_before <- svymean(~enroll, dclus1)
print(mean_before)

# 分层后的均值估计
mean_after <- svymean(~enroll, dclus1p)
print(mean_after)

结果可能显示，事后分层后，估计的均值从549.72变为594.27，同时标准误也从5.19有所增大。这说明了事后分层并不保证总能改善均值估计的精度。

估计总值的变化

接着，我们使用svytotal函数来估计变量enroll的总值。

# 分层前的总值估计
total_before <- svytotal(~enroll, dclus1)
print(total_before)

# 分层后的总值估计
total_after <- svytotal(~enroll, dclus1p)
print(total_after)

结果可能显示，估计的总值变化不大，但标准误从分层前的约932,000大幅下降到分层后的约406,000，降低了超过50%。这表明对于总值的估计，事后分层带来了显著的精度提升。

变异系数的比较

我们还可以通过比较变异系数（CV）来评估精度的变化。survey包中的cv函数可以用于此目的。

# 比较均值的CV
cv_mean_before <- cv(svymean(~enroll, dclus1))
cv_mean_after <- cv(svymean(~enroll, dclus1p))
c(cv_mean_before, cv_mean_after)

# 比较总值的CV
cv_total_before <- cv(svytotal(~enroll, dclus1))
cv_total_after <- cv(svytotal(~enroll, dclus1p))
c(cv_total_before, cv_total_after)

您可能会发现，对于均值，CV从0.082增加到了0.110，意味着精度下降。而对于总值，CV从0.2737下降到了0.1103，精度得到改善。

一个重要现象是： 在事后分层后，均值的CV和总值的CV变得相同。这是因为在计算均值时，我们除以了权重的总和，而事后分层强制使权重总和等于已知的总体单位数。这个总体单位数在每次抽样后都是一个常数，因此均值估计和总值估计的相对变异程度就相同了。

模型视角与注意事项

每个估计量背后都有一个隐含的模型。对于事后分层估计量，其隐含模型非常简单：假设在每个事后层g内，y值有一个共同的均值β_g和一个共同的方差σ_g^2。

如果这个模型近似正确，那么事后分层估计量将是高效的（即方差较低）。
即使模型是错误的，事后分层估计量在重复抽样下也近似是设计无偏的，平均值会接近真实值。
但如果模型设定很差（例如遗漏了重要的预测变量），估计量就会效率低下（方差较大）。

因此，进行事后分层时，检查隐含模型是否合理是一个好习惯。如果发现模型可能遗漏了重要协变量（例如，在按年龄和性别分层时，忽略了种族和收入水平），可以考虑以下方法来改进估计：

使用边缘平衡（Raking）：将种族、收入等变量作为需要平衡的边缘（margin）纳入。
使用广义回归估计量（GREG）：它可以同时处理定性（如种族、性别）和定量（如收入值）的辅助变量，提供了更大的灵活性。

总结

本节课中我们一起学习了在R中实现事后分层的完整流程。我们使用survey包，从定义调查设计开始，逐步完成了指定总体总数、应用事后分层、以及比较分层前后估计值的变化。关键要点在于：

事后分层通过调整权重，使样本在分层变量上的分布与总体一致。
它不一定能改善所有估计量（如均值）的精度，但通常能显著提高总值估计的精度。
事后分层估计量具有设计无偏性，但其效率取决于隐含模型是否正确。在实践中，需要根据情况考虑是否结合使用边缘平衡或广义回归估计量等更复杂的方法。

142：缺失数据插补的必要性 📊

在本节课中，我们将要学习如何处理调查数据中普遍存在的缺失值问题。具体来说，我们将探讨为什么需要进行数据插补，以及处理缺失数据的不同方法及其潜在影响。

缺失数据的类型与编码

上一节我们介绍了缺失数据是调查中的常见问题。本节中，我们来看看缺失数据的两种主要类型及其在统计软件中的编码方式。

缺失数据至少有两种类型：

完全缺失：整个案例没有任何数据。这可能发生在两种情况下：一是该单元最初就没有被抽样；二是被抽样但完全没有回应。
部分缺失：案例中某些变量的值缺失。

不同的统计软件对缺失值有不同的默认编码标准。了解这些编码至关重要，以避免将表示缺失的代码误当作真实数据进行分析。

以下是常见统计软件的缺失值编码：

在 R 语言中，默认使用 NA 表示缺失值。
在 SAS 中，使用 .A 到 .Z、单个点 . 或 ._ 表示缺失值。
在 Stata 中，使用 .A 到 .Z 以及单个点 . 表示缺失值。

此外，特定的调查可能会使用特殊代码来区分不同类型的缺失原因。例如，99、9 或 -9 常被用来表示缺失。因此，在分析他人提供的数据集时，务必确认其用于表示缺失的特殊编码。

处理缺失数据的方法

了解了缺失数据的类型后，我们来看看处理这些缺失案例的几种常见方法。

以下是三种主要的处理方法：

完全案例分析：如果一个案例在任何变量上存在缺失值，就将其从数据集中完全删除。这种方法看似简单，但可能过于极端，因为它丢弃了所有不完整的案例。
可用案例分析：在进行特定分析时，只使用在所涉及变量上完整的案例，而忽略这些案例在其他变量上是否缺失。例如，在运行 Y 对几个 X 的回归时，只使用这些变量都完整的案例。这比完全案例分析能利用更多数据，但依然丢弃了部分信息。
插补法：为缺失值“填空”。通过估算并填充缺失值，你可以在每次分析中使用所有案例，这无疑增加了可用于分析的样本量。当然，这意味着你使用的并非全是真实数据，因此需要采用适当方法来考虑这一事实。

完全案例分析的局限性与缺失机制

虽然完全案例分析操作简单，但它存在几个重要问题。理解这些问题需要回到鲁宾和利特尔定义的缺失数据机制。

完全案例分析的主要问题包括：

估计偏差：如果存在缺失数据的单元与完全观测到的案例在系统上存在差异，那么丢弃它们可能导致有偏的估计。例如，假设男性和女性在 Y 值上存在系统性差异，且男性的缺失案例更多。如果直接丢弃这些缺失案例，样本中男女的分布将无法反映总体情况，从而导致估计偏差。
样本量损失：如果你试图拟合的模型包含许多变量，那么完全案例可能非常少，仅仅为了进行简单分析就会丢弃大量数据。
隐含的插补：在丢弃缺失案例时，对于许多分析（如估计均值和总和），你实际上是在隐含地用完全案例的平均值来插补那些缺失案例。这可能是一种很差的插补方法。

因此，我们需要寻找更好的处理方式。这引出了三种缺失数据机制：

完全随机缺失：每个单元（或每个项目）出现在样本中的概率相同。公式表示为：P(缺失 | 数据) = P(缺失)。
随机缺失：在考虑了一些协变量之后，缺失与观测值无关。这意味着我们可以基于已知的协变量对缺失值进行合理的估算。公式表示为：P(缺失 | 数据) = P(缺失 | 观测到的数据)。
非随机缺失：缺失的概率不仅取决于协变量，还关键地取决于你试图分析的 Y 变量本身。这是最糟糕的情况，因为对于缺失的案例，我们无法观测到 Y 值。

通常，随机缺失是我们所能期望的最好情况。我们希望通过考虑尽可能合理的协变量，为我们提供一种智能地插补缺失案例的方法，正如我们希望通过加权调整来获得近似无偏估计一样。

本节课中，我们一起学习了缺失数据插补的必要性。我们区分了缺失数据的类型和编码，比较了完全案例分析、可用案例分析和插补法这三种处理策略的优缺点，并深入探讨了完全案例分析的局限性及其与缺失数据机制（完全随机缺失、随机缺失、非随机缺失）的关系。理解这些概念是进行有效且无偏的数据分析的基础。在接下来的视频中，我们将进一步深入探讨插补的具体细节。

143：均值与热卡插补

📖 概述

在本节课程中，我们将学习两种处理调查数据中缺失值的基本插补方法：均值插补与热卡插补。我们将了解它们的基本原理、操作步骤、各自的优缺点以及适用的场景。

🔍 插补方法概览

在深入探讨具体方法前，我们先简要回顾一下本课程将涵盖的各种插补可能性。以下是主要的插补方法列表：

基于逻辑规则的插补：这通常不被视为典型的插补，更像是一种编辑检查。例如，如果在问卷中已知某人的出生日期，但年龄缺失，可以通过计算来填补年龄。
均值插补：通常在由样本特征定义的单元格内，用该单元格的均值来填补缺失值。有时会为这个均值添加一个随机误差。
冷卡插补：适用于连续性调查。如果某个单位在上一轮调查中有响应，则使用其上一轮的值（或经过某种指数调整后的值）来填补当前轮的缺失值。
热卡插补：在当前数据集中，为有缺失值的单位，寻找一个具有完整数据的相似个案，并将其值直接填入。
回归预测插补：基于对所有单位（无论是否缺失）都有效的协变量，生成一个回归预测值来填补缺失值。同样，可以为其添加随机误差。
预测均值匹配：先通过回归为缺失个案生成一个预测值，然后在完整数据中寻找一个实际观测值最接近该预测值的个案，并用该观测值进行填补。

以上第2至第6种方法都可以顺序执行。即先处理缺失值最少的变量，填补后，利用已完整的数据（包括刚填补的值）再去处理缺失值次多的变量，如此循环。

📊 均值插补详解

上一节我们介绍了多种插补方法，本节中我们首先来详细看看均值插补。

均值插补的一个主要问题是，如果缺失值很多，并且反复填入同一个均值，会在分布中引入一个“尖峰”，导致大量数值聚集在该均值点附近。

为了缓解这种分布扭曲，一种改进方法是为填入的均值添加一个随机误差。这有助于避免反复插补完全相同的值。

这个随机误差可以如何设定呢？一种常见做法是使用均值为零、方差等于非缺失值观测方差的正态分布。当然，这并非强制规定。如果你检查完整数据后发现其分布更接近伽马分布或卡方分布等，完全可以使用这些分布来生成随机误差。

在进行均值插补时，我们通常会将数据划分为不同的单元格或子组。这种做法实际上是为了考虑“缺失值可能依赖于某些协变量”的可能性。在这种情况下，你实际上隐含地使用了一个模型。这里隐含的回归模型是一种方差分析模型，其中所有协变量都是分类变量（正是用于划分单元格的那些变量），你基于这些分类协变量来插补均值。

🃏 热卡插补详解

接下来，我们看看热卡插补，它与均值插补有所不同。

热卡插补通常也需要先将数据划分到单元格中。例如，在商业调查中，你可能按“企业类型”和“规模”划分；在人口调查中，可能按“年龄”和“性别”划分。

在每个单元格内，如果某个单位的数据缺失，你需要做的是：从该单元格内非缺失的单位中随机抽取一个，并将其观测值填入缺失位置。

这种方法的主要优势在于，由于使用的是实际观测值，因此不会插补出不可能的值（例如，负的年龄）。

它隐含的假设是：同一组（单元格）内的所有单位具有共同的均值。这背后同样是一种方差分析模型的假设。在满足这种假设的情况下，使用热卡插补最为合理。

✅ 总结

本节课中，我们一起学习了两种基础的缺失值插补方法。

均值插补操作简单，但可能扭曲数据分布，可通过添加随机误差改进。它隐含了基于分类协变量的方差分析模型。
热卡插补通过从相似个案中随机抽取观测值进行填补，能保证填入值的合理性，其隐含假设是组内个案同质。

下一节，我们将探讨更复杂的回归插补方法。

144：回归插补法 🧩

在本节课中，我们将学习一种处理缺失数据的重要方法——回归插补法。其核心思想是建立一个统计模型，利用已有数据的信息来预测并填补缺失值。我们将分别讨论连续变量和离散变量的处理方法。

连续变量的回归插补

上一节我们介绍了处理缺失数据的基本概念，本节中我们来看看如何使用回归模型为连续变量填补缺失值。

其基本思路是，将我们关心的分析变量 Y 作为因变量，与其他一系列协变量 X 建立线性回归模型。对于第 K 个缺失的 Y 值，我们通过以下公式进行插补：

Y_hat_K = β_hat_0 + β_hat_1 * X_1K + ... + β_hat_p * X_pK + e_K

其中，β_hat 是基于完整数据估计出的回归系数，X_iK 是缺失个案 K 的第 i 个协变量的值（这意味着我们必须拥有缺失个案的协变量数据）。e_K 是一个误差项，可以是从完整数据集的残差中随机抽取的一个值。这样做可以为插补值引入一定的变异性，并且使用的残差至少是数据集中真实出现过的。

以下是实施此方法时需要注意的关键点：

所有用于建模的协变量在需要插补的个案中必须是非缺失的。
在实践中，当多个变量存在缺失时，会采用“链式方程插补”法。该方法会按顺序为不同的 Y 变量填补缺失值，逐步构建完整数据集。因此，在对某个特定 Y 进行某一步插补时，可能会用到上一步中已插补好的协变量值。

此外，如果回归模型中的协变量包含一组分类变量的主效应和交互项，那么这本质上是一种均值插补。因为模型实际上是在为这些分类变量组合定义的每一个“单元格”内，计算并填补一个回归均值。

预测均值匹配

回归插补的一个变体称为“预测均值匹配”。

其工作原理如下：首先，像之前一样，利用完整数据建立 Y 对 X 的回归模型，得到一个拟合方程。然后，用这个方程预测缺失 Y 值的个案的均值。接着，在完整数据集中寻找一个受访者，其 Y 的实际观测值最接近这个预测均值。最后，将这个实际观测值填入缺失个案中。

因此，你填补的是一个真实观测值，但你是通过将回归预测值与完整数据集中的真实值进行匹配来间接使用回归方程。这种方法在某些我们将要了解的软件中是可用的。

离散变量的回归插补

现在，让我们将目光转向离散变量，特别是二分类变量（例如“是/否”，编码为1/0）的插补方法。

对于二分类变量 Y，我们可以拟合一个二元回归模型，例如逻辑回归、Probit回归等。这里以逻辑回归为例进行说明。

在逻辑回归中，我们是在 logit 尺度（即对数几率尺度）上建立模型。Logit 定义为 log[P/(1-P)]，其中 P 是拥有该特征的概率，它与协变量 X 呈线性关系。

对于第 K 个缺失的 Y 值，插补过程分为两步：

首先在 logit 尺度上进行预测：Z_hat_K = β_hat_0 + β_hat_1 * X_1K + ...
然后将预测的 logit 值转换回概率尺度：P_hat_K = exp(Z_hat_K) / [1 + exp(Z_hat_K)]

然而，我们最终需要填补的是一个具体的类别（0或1），而不是一个概率。因此，我们需要引入随机性。

以下是具体的随机插补步骤：

生成一个在区间 [0, 1] 上均匀分布的随机数 U。
比较 U 与预测概率 P_hat_K：
- 如果 U ≤ P_hat_K，则填补 Y = 1。
- 如果 U > P_hat_K，则填补 Y = 0。

可以看到，这个过程通过随机数 U 引入了随机性。这种随机性在后续我们学习“多重插补”这一方差估计技术时将非常重要。

本节课中我们一起学习了回归插补法。我们了解到，对于连续变量，可以通过线性回归模型预测缺失值，并可选择添加残差或使用预测均值匹配来增加变异性。对于二分类离散变量，则可以通过逻辑回归模型预测其概率，再通过随机抽样的方式决定填补的类别。这种方法为处理调查数据中的缺失问题提供了强有力的模型驱动工具。

145：方差影响分析 📊

在本节中，我们将学习如何处理缺失值填补后带来的额外方差。填补数据并非真实观测值，因此在估计方差时必须考虑这一因素。本节将介绍一种名为多重填补的方法，它能有效解决这一问题。

多重填补的基本思想

在之前的视频中，我们介绍了几种填补缺失值的方法，并指出这些填补的数据并非真实数据。因此，在估计方差时，我们需要考虑填补过程引入的额外变异性。典型的效应是，填补会为估计值增加方差，这与使用真实未填补数据得到的结果不同。我们不能将填补值当作真实数据处理，否则大多数估计的标准误会过小。

那么，如何考虑这额外的方差呢？有多种方法，其理论依据也各不相同。一种方法依赖于专门的公式，这些公式取决于具体的填补方式。但这种方法不太方便，因为大多数常用软件并未内置这些专门公式。另一种更易实现的方法叫做多重填补，它已被部分软件采纳。这种方法要求填补过程包含一定的随机性，而我们在之前的视频中已经学习了如何引入这种随机性，因此这不是一个大的障碍。

多重填补的操作步骤

以下是多重填补的具体操作流程。

多重填补的核心思想是为每个缺失值填补多个值。通常，我们用符号 m 表示填补值的数量，m=5 是一个常见的选择，但如果数据量很大，当然可以生成更多。如前所述，填补过程必须包含随机元素，然后使用一个特殊公式来考虑填补方差。

用文字描述，包含填补数据的估计量的方差等于“将填补值视为真实数据时的方差”加上“使用不同填补值得到的估计值之间的平均方差”。我们将在下一页看到具体公式。

其思路是，我们为每一个 t = 1, 2, ..., m 个“完整数据集”计算一个估计值，记作 Q̂_t。所谓“完整数据集”，是指每次分析都保留所有观测到的真实数据，而对于缺失数据，则填入第 t 组填补值。这样，我们就得到了 m 个 Q̂_t 值。我们最终报告的估计值就是这些 Q̂_t 的平均值，记作 Q̄。

接下来计算方差估计。首先，我们为每个完整数据集计算一个直接的方差估计，记作 U_t。这个 U_t 可以是任何适用于你的抽样设计和估计量的方差估计，例如来自精确公式、线性化近似或复制方差法。

例如，如果你采用的是分层简单随机抽样（不放回），且 Q̂_t 是分层样本均值 Ȳ_t，那么 U_t 就是分层均值方差的常用公式：
U_t = Σ_h [ W_h^2 * (1 - f_h) * (s_{ht}^2 / n_h) ]
其中，W_h 是第 h 层的人口比例，f_h 是该层的抽样比，s_{ht}^2 是基于第 t 个完整数据集估计的第 h 层内 Y 变量的总体方差，n_h 是第 h 层的样本量（可能包含已填补的缺失数据）。

最终方差估计公式

那么，如何利用这些 U_t 和 Q̂_t 得到最终的方差估计呢？我们按以下方式组合它们：

最终估计值 Q̄ 的方差估计公式为：
V(Q̄) = Ū + (1 + 1/m) * B
其中：

Ū 是 m 个直接方差估计 U_t 的平均值。
B 是 m 个完整数据集估计值 Q̂_t 之间的方差，即 B = Σ_t (Q̂_t - Q̄)^2 / (m-1)。

Ū 部分可以看作是对方差的重复估计。B 项则是为了考虑填补方差而增加的增量。可以看到，如果进行大量填补（m 很大），1/m 会很小，这个因子就接近 1。对于 m=5 的情况，这个增量也需要被包含进来，以获得近似无偏的方差估计。

这个公式的优点是通用性强。无论是带有随机误差的均值填补、从完整单元中随机抽取的热卡填补、带有随机误差的回归填补，还是预测均值匹配，只要填补过程包含随机性，都可以使用这个多重填补方差公式。

多重填补的优缺点

多重填补有许多优点，同时也存在一些缺点。

优点包括：

方差公式简单。
同一方差公式适用于多种类型的估计量，如均值、总量、分位数、回归参数估计等。与其他一些方法相比，你无需为每种不同的估计量推导专门的公式。
在填补模型正确的前提下，点估计及其方差估计是近似无偏的。
它使用了所有可用数据，不会损失任何案例。

一个缺点是： 在某些类型的整群样本中，多重填补的方差估计量可能存在正偏（即估计值偏大）。这是否构成严重问题取决于具体的应用场景。不过，通常认为方差估计偏大是保守的，这种错误并不算太严重。因此，考虑到多重填补的通用性，这个缺点的权重可能小于其诸多优点。

总结

本节课中，我们一起学习了如何处理缺失值填补带来的方差影响。我们介绍了多重填补方法，它通过为每个缺失值生成多个填补值，并使用公式 V(Q̄) = Ū + (1 + 1/m) * B 来综合计算最终估计的方差，从而有效地纳入了填补过程的不确定性。这种方法公式通用、易于实现，是处理调查数据中缺失值问题的一个强大工具。

146：MICE R程序包 🐭

在本节课中，我们将学习如何使用R语言中的mice程序包进行多重插补。多重插补是处理调查数据中缺失值的一种强大方法。我们将通过一个简单的示例来了解其基本操作和核心概念。

概述

上一节我们介绍了多重插补的基本概念。本节中，我们来看看一个具体的软件工具——mice（链式方程的多变量插补）R程序包，它可以帮助我们实际执行多重插补操作。

软件选择

市面上有多种可用于多重插补的软件。以下是几个主要的选择：

R语言：有两个主要程序包，MI和mice。本节课我们将重点介绍mice。
SAS：可以使用密歇根大学编写的SAS宏IVEware，或者SAS主程序中的proc MI过程。
Stata：可以使用名为mi impute的程序。

`mice`程序包简介

mice程序包由Van Buuren和Groothuis-Oudshoorn开发（作者名字如有误读，在此致歉）。关于此程序包的详细描述，可以阅读他们2011年发表在《统计软件杂志》上的文章，题为“MICE: Multivariate Imputation by Chained Equations”。文章标题中的“链式方程”正是该方法的核心理念。

该程序包具有很高的灵活性：

对于连续变量，默认使用预测均值匹配方法。
对于二分类变量（如是/否），默认使用逻辑回归方法（参数名为logreg）。
您可以为每个需要插补的变量指定不同的插补方法和不同的协变量集。
您可以选择为所有含缺失值的变量进行插补，也可以仅针对最重要的一个子集进行。

示例数据集：`nhanes2`

mice程序包自带一个名为nhanes2的小型数据集，我们将用它进行演示。NHANES代表“美国国家健康与营养检查调查”，这是一个在美国进行的重要家庭健康调查，通过访谈、体检和血液采样收集数据，对于评估各种健康状况的流行率至关重要。

nhanes2数据集包含四个变量：

age：年龄（分类变量）
bmi：身体质量指数（连续变量）
hyp：高血压（是/否，分类变量）
chl：血清总胆固醇（连续变量）

数据初步查看

首先，我们需要加载mice程序包并查看数据的前几行。以下是操作代码：

# 加载mice程序包
library(mice)

# 查看nhanes2数据集的前6行
head(nhanes2)

执行head()函数后，我们可以看到前六个观测值。从输出中能观察到：

age是分类变量，以范围编码。
bmi是连续变量，在前六行中就有四个缺失值。
hyp是分类变量，在前六行中有三个缺失值。
chl是连续变量，在前六行中有两个缺失值。

R中还有一个对应的tail()函数，可以查看数据的最后几行。您也可以通过参数指定查看的行数，例如head(nhanes2, 10)。

总结

本节课中，我们一起学习了mice这个用于多重插补的R程序包。我们了解了其背景、灵活性以及自带的示例数据集nhanes2的结构。通过初步查看数据，我们确认了其中存在缺失值。在下一节，我们将具体学习如何使用mice程序包为这些缺失值进行插补。

147：MICE应用案例 🧩

在本节课中，我们将学习如何使用R语言中的mice包进行多重插补，以处理数据集中的缺失值。我们将通过一个具体的案例，了解如何可视化缺失模式、执行多重插补，并对插补后的数据进行回归分析。

可视化缺失模式 📊

上一节我们介绍了多重插补的基本概念，本节中我们来看看如何通过可视化来理解数据中的缺失模式。边缘图是一种便捷的工具，尤其适用于观察小型数据集中的缺失情况。

首先，需要加载VIM包，它提供了绘制边缘图的函数marginplot。以下代码展示了如何为NHANES2数据集中的血清总胆固醇和身体质量指数绘制边缘图。

require(VIM)
marginplot(NHANES2[, c("chl", "bmi")],
           col = c("blue", "red", "orange"),
           cex = 1.2,
           cex.lab = 1.2,
           cex.numbers = 1.3,
           pch = 19)

在生成的图表中，横轴代表血清总胆固醇，纵轴代表身体质量指数。图表中央的散点图展示了两个变量均存在的观测案例。

图表两侧各有两个箱线图：

左侧的蓝色箱线图代表身体质量指数存在但血清总胆固醇缺失的案例。
左侧的红色箱线图代表身体质量指数存在且血清总胆固醇也存在的案例（用于对比）。
底部的箱线图同理，代表血清总胆固醇存在但身体质量指数缺失的案例，以及两者均存在的案例。

从图中可以观察到，共有9个案例缺失血清总胆固醇，10个案例缺失身体质量指数，7个案例两者均缺失。

此外，如果数据是完全随机缺失的，那么对比组（如存在与缺失胆固醇的BMI箱线图）的分布应该相似。但在此图中，无论是垂直轴还是水平轴，对比组的箱线图都存在明显差异。这表明缺失并非完全随机，因此在插补时必须考虑协变量，才能获得对真实值的无偏预测。

执行多重插补 🔄

理解了缺失模式后，接下来我们使用mice函数对数据进行多重插补。

set.seed(12345)
NHANES2.imp <- mice(NHANES2, seed = 12345)
summary(NHANES2.imp)

mice函数会执行插补过程，set.seed用于设置随机数种子以确保结果可重现。summary函数会打印出关于插补的详细信息。

summary的输出包含几个关键部分：

它回显了函数调用。
默认插补次数为5次，但用户可以控制。
报告了数据集中每一列的缺失值数量。
显示了每个变量使用的插补方法。例如，连续变量（如bmi, chl）默认使用预测均值匹配法，分类变量（如hyp）默认使用逻辑回归法。
显示了插补序列，本例中依次插补了身体质量指数、高血压和血清总胆固醇。
提供了一个矩阵，说明每个变量使用了哪些协变量进行插补。例如，插补身体质量指数时，使用了年龄、高血压和血清总胆固醇（即除自身外的所有其他变量）。

如果需要，用户可以控制插补方法和使用的预测变量。

分析插补后的数据 📈

完成插补后，我们可以对插补生成的多份完整数据集进行分析。以下是如何对插补后的数据进行线性回归分析，并正确计算标准误。

fit <- with(NHANES2.imp, lm(chl ~ age + bmi))
summary(pool(fit), digits = 2)

这里，with函数用于在每一份插补后的数据集上拟合线性模型（血清总胆固醇对年龄和身体质量指数回归）。pool函数是关键，它根据多重插补的公式汇总所有数据集的分析结果：

参数估计值是所有完整数据集估计值的平均值。
报告的标准误使用了特定的多重插补方差公式，该公式结合了直接估计的平均方差和不同插补数据集间估计值变异带来的增量。

输出结果中，除了回归系数、标准误和t统计量外，还有两个重要指标：

FMI：缺失信息比例，与方差公式中的B参数大小有关。
Lambda：归因于插补的总方差比例。例如，截距项的Lambda为0.27，意味着其方差的27%可归因于插补过程。在大数据集中，若缺失比例较小，这个数值会小得多。

总结 ✨

本节课中我们一起学习了mice包的应用。我们首先通过边缘图可视化了数据缺失的非随机模式，认识到在插补时考虑协变量的必要性。接着，我们使用mice函数执行了多重插补，并解读了其输出摘要。最后，我们使用with和pool函数对插补后的数据进行了回归分析，正确地整合了多份数据集的结果并计算了考虑插补不确定性的标准误。

mice是一个灵活且流行的R包，它既能执行插补，也能恰当地反映插补对统计推断（特别是方差估计）的影响。

148：课程五：缺失数据处理总结

在本课程中，我们学习了如何处理调查数据中的缺失值问题，主要涵盖了加权与插补两种核心方法。接下来，我们将对课程内容进行系统性的回顾与总结。

模块一：加权的一般步骤

上一节我们介绍了课程的整体框架，本节中我们来看看加权处理的一般步骤。我们讨论了可以估计的统计量，例如均值、总和、比例和分位数。

以下是本模块涵盖的核心目标与方法：

估计目标：明确统计分析的目的。
统计解释：如何从统计学角度解释加权后的结果。
权重的作用：如何使用权重来减少估计的偏差（Bias）和方差（Variance）。
覆盖误差校正：如何校正因样本未能完全覆盖目标群体而产生的误差。
辅助数据的使用：如何利用外部辅助数据来改进估计精度。
标准误的影响：我们探讨了加权对标准误（Standard Errors）的影响，这一点必须加以考虑，因此需要使用专门的软件进行计算。

模块二：概率样本的具体加权步骤

了解了通用步骤后，本节我们聚焦于针对概率样本的具体加权操作流程。

以下是处理概率样本缺失数据的关键步骤：

计算基础权重：通常为抽样概率的倒数，公式为 基础权重 = 1 / 抽样概率。
进行无回答调整：根据回答者和无回答者的特征差异，调整基础权重以减少无回答带来的偏差。
外部控制校准：将样本的加权总和与已知的总体特征（如人口年龄分布）进行校准。这一步既能校正覆盖误差，也能有效降低估计的标准误。

模块三：加权软件实践

理论步骤需要工具实现，本节中我们来看看如何在实践中应用这些方法。我们介绍了一款R语言软件，它能够帮助我们完整地执行上述所有加权步骤。

模块四：数据插补方法

除了加权，处理缺失数据的另一核心方法是插补。本节我们转向学习数据插补。

进行插补的主要原因有两个：

创建完整数据集：避免在分析时因缺失值而删除任何个案，确保分析基于全部样本。
避免估计偏差：如果不对缺失项进行插补，数据中的缺失模式可能导致点估计（Point Estimates）产生偏差。

我们探讨了几种常用的插补方法：

热卡插补
预测均值匹配
回归估计 等。

随后，我们介绍了一个名为 mice 的R语言包（全称为“通过链式方程进行多重插补”）。这是一个非常实用的工具包，可以帮助我们执行多重插补，并在插补后正确地估计方差。

课程总结

在本课程中，我们一起深入学习了处理调查数据缺失值的两大核心策略：加权与插补。我们从加权的基本原理和步骤开始，逐步深入到概率样本的具体调整与校准技术，并介绍了实现这些操作的软件工具。最后，我们探讨了数据插补的必要性、多种方法以及用于多重插补的mice软件包。掌握这些内容，将为您处理现实世界中的不完整调查数据奠定坚实的基础。

149：基础估计概述

在本节课中，我们将学习复杂调查数据的基础估计方法，包括如何估计均值、总和以及分位数，并了解在分析复杂样本时为何必须考虑权重和设计效应。

课程概述

欢迎来到第五门课程：复杂数据的合并与分析。本课程由 Richard Valiant 和 Fraca Croyer 讲授。课程内容涵盖多个模块。第一模块“基础估计”将讨论在复杂样本中如何估计均值、总和及分位数。第二模块“模型拟合”将探讨如何估计线性回归模型和逻辑回归等非线性模型的参数，并介绍相关软件。第三模块将介绍记录连接的基本方法，这是一个日益重要的主题。第四模块将探讨与数据连接相关的伦理问题，这些问题在不同国家可能有所不同，因此值得了解。

基础估计：总和与均值

上一节我们介绍了课程的整体结构，本节中我们来看看基础估计的核心内容，即总和与均值。

在复杂调查设计中，一个关键点是必须考虑权重。如果样本是总体的一个等概率缩影，那么所有单位将拥有相同的权重，分析会简化许多。然而，由于抽样设计中存在不同的入选概率、无回答调整或需要校准到外部控制总量，我们通常需要为不同单位赋予不同的权重。这些权重具有实际意义，不应被忽略。

此外，在复杂样本分析中，还需要考虑多阶段选择中的加权对标准误估计的影响。幸运的是，已有现成的软件可用于分析复杂样本，我们将在后续提供多个使用示例。

总和是最容易讨论的估计量。如果权重被缩放至能将样本“投影”到总体规模，那么总和的估计方法如下：

公式：估计总和 = Σ (权重_i * 数据值_i)，其中 i 属于样本集合 S。

这里的 y 变量可以是收入。如果 y 是0或1，它也可以代表患有糖尿病的人数或供水受到污染的人数等。

对于均值的估计，我们只需将估计的总和除以权重的总和：

公式：估计均值 = (Σ (权重_i * 数据值_i)) / (Σ 权重_i)。

如果权重被缩放至能估计总体总和，那么权重的总和就是总体单位数量的估计值。同样，如果只对某个子组（例如样本中的男性）求和，其结果将是该子组（男性）在总体中数量的估计值。这是构建复杂调查权重的标准方法带来的便利。

模型参数估计通常依赖于估计的总和。因此，如果掌握了估计总和的方法，通常也就能够估计模型参数，相关软件中也内置了相应的程序。

分位数估计

上一节我们讨论了总和与均值的估计，本节我们来看看分位数的估计方法，它与前两者有所不同，且可用的软件选择更为有限。

以下是估计分位数的算法步骤：

确定变量：首先确定要进行分位数估计的定量变量，例如收入或受教育年限。
排序数据：根据该 Y 变量将数据文件从低到高排序。
累积权重：每个单位都有其权重，我们开始累积这些权重，直到达到特定百分比点。
确定分位数值：查看累积权重首次达到或超过目标百分比（例如50%对应中位数）时，所对应的那个单位的 Y 值，该值即为分位数估计值。

以下是具体说明：

估计中位数：累积权重，直到达到总权重和的50%。找到第一个累积权重达到或超过50%的单位，其 Y 值即为中位数估计值。
估计其他分位数：例如第一四分位数（25%）或第三四分位数（75%），只需累积权重至相应的百分比点（25%或75%），然后查看对应单位的 Y 值即可。

由于样本的离散性，有时可能需要进行一些舍入处理，但这类操作通常已内置在软件中。分位数估计中较困难的部分在于估计其精度度量，我们后续也会讨论。

总结与预告

本节课中，我们一起学习了复杂调查数据的基础估计概念。我们了解到，在分析时必须考虑权重和设计效应。我们介绍了总和与均值的估计公式，并解释了权重的总和可以估计总体或子组的规模。此外，我们还讲解了分位数的估计算法，包括排序数据和累积权重的步骤。

在下一节视频中，我们将深入介绍可用于这些分析的软件。

150：R语言基础示例

在本节课中，我们将学习如何在R语言中使用survey包来分析复杂抽样设计的数据。我们将通过一个分层简单随机抽样的实例，演示如何指定抽样设计、计算调查权重、纳入有限总体校正因子，并最终计算变量的均值及其标准误。

加载必要的包与数据

首先，我们需要加载分析所需的R包和数据。我们将使用PracTools包中的NHIS数据集，以及sampling和survey包。

# 加载必要的包
library(PracTools)
library(sampling)
library(survey)

# 加载并准备NHIS数据
data(NHIS)
# 将数据附加到搜索路径，方便后续调用变量
attach(NHIS)

执行分层抽样

上一节我们加载了数据，本节中我们来看看如何从总体中进行分层抽样。我们的目标是从NHIS数据中，按教育水平（变量Educ_R）分层，每层抽取100个个体，使用不放回的简单随机抽样方法。

以下是具体步骤：

首先，我们需要按分层变量对数据集进行排序。
然后，使用sampling包中的strata函数执行抽样。

# 1. 按分层变量 Educ_R 对数据进行排序
NHIS_sorted <- NHIS[order(NHIS$Educ_R), ]

# 2. 执行分层抽样
# strata参数指定分层变量
# size参数指定每层的样本量，这里每层抽100个
# method参数指定为“srswor”，即不放回简单随机抽样
ST_sam <- strata(data = NHIS_sorted,
                 stratanames = "Educ_R",
                 size = rep(100, 4),
                 method = "srswor",
                 description = TRUE)

执行上述代码后，控制台会输出每层的总体数量和被选中的样本数量，例如第一层有1964个单元，我们从中抽取了100个。

计算调查权重

抽样完成后，我们需要为样本中的每个个体计算调查权重。权重通常是选择概率的倒数。

# 从抽样结果对象中提取样本数据
sam_dat <- getdata(NHIS_sorted, ST_sam)

# 计算调查权重：权重 = 1 / 选择概率
# 选择概率存储在ST_sam对象的Prob列中
sam_dat$svy_wt <- 1 / ST_sam$Prob

# 查看权重的范围
range(sam_dat$svy_wt)

权重范围从约2.95到19.65，表明不同个体被抽中的概率不同，需要在分析中通过权重进行校正。

指定抽样设计

现在我们已经有了样本数据和权重，接下来需要使用survey包中的svydesign函数来正式定义我们的抽样设计。这是告诉软件如何处理复杂设计（如分层、整群、权重）的关键步骤。

以下是定义设计的参数：

ids: 指定整群变量。本例为简单随机抽样，没有整群，因此设为~1。
strata: 指定分层变量，这里是~Educ_R。
weights: 指定权重变量，这里是~svy_wt。
data: 指定包含样本数据的数据框。
fpc: 指定有限总体校正因子。这里我们传入选择概率本身。

# 创建包含有限总体校正（FPC）的设计对象
NHIS_dsgn <- svydesign(ids = ~1,
                        strata = ~Educ_R,
                        weights = ~svy_wt,
                        data = sam_dat,
                        fpc = ~Prob)

# 创建另一个不包含FPC的设计对象用于对比
NHIS_dsgn.nofpc <- svydesign(ids = ~1,
                              strata = ~Educ_R,
                              weights = ~svy_wt,
                              data = sam_dat)

关于FPC的说明：在survey包中，如果fpc参数的值在0到1之间，软件会将其解释为选择概率 $ \pi_i $，并自动在方差计算中使用 $ 1 - \pi_i $ 作为校正因子。如果值大于1，则被解释为层总体大小 $ N_h $。

计算总体均值

设计对象创建好后，我们就可以进行估计了。首先，我们使用svymean函数来计算整个样本中年龄（Age）的均值及其标准误。

# 使用包含FPC的设计计算年龄均值
mean_with_fpc <- svymean(~Age, design = NHIS_dsgn)
print(mean_with_fpc)

# 使用不包含FPC的设计计算年龄均值
mean_without_fpc <- svymean(~Age, design = NHIS_dsgn.nofpc)
print(mean_without_fpc)

包含FPC时，估计的年龄均值为45.88，标准误为0.976。不包含FPC时，均值相同（因为FPC不影响点估计），但标准误略高，为1.012。这说明忽略FPC会高估不确定性。

计算域（子组）估计

在实际分析中，我们经常需要计算不同子组（域）的统计量。例如，我们想看看不同教育水平下年龄的均值有何不同。

我们可以使用svyby函数来实现按域分组计算：

# 按教育水平（分层变量）分组计算年龄均值（使用含FPC的设计）
domain_means_fpc <- svyby(~Age, by = ~Educ_R, design = NHIS_dsgn, FUN = svymean)
print(domain_means_fpc)

# 按教育水平分组计算年龄均值（使用不含FPC的设计）
domain_means_nofpc <- svyby(~Age, by = ~Educ_R, design = NHIS_dsgn.nofpc, FUN = svymean)
print(domain_means_nofpc)

输出结果会显示每个教育水平组的年龄均值和标准误。对比两者可以发现，忽略FPC会导致所有组的标准误被高估，高估幅度从2.6%到近23%不等。

# 计算忽略FPC导致标准误高估的百分比
se_increase <- (domain_means_nofpc$se / domain_means_fpc$se - 1) * 100
print(se_increase)

关于有限总体校正（FPC）的总结

本节课中我们一起学习了如何在R中处理复杂抽样调查数据。最后，我们对有限总体校正因子进行总结：

严格适用情况：FPC理论上最适用于不放回的简单随机抽样或分层不放回简单随机抽样。在这种情况下，纳入FPC可以更准确地估计方差。
软件中的灵活处理：即使对于其他抽样设计（如PPS抽样），许多软件也允许以特定方式纳入FPC。这虽然在数学上不完全严格，但可以作为考虑“不放回”带来的精度增益的一种实用方法。
忽略FPC的影响：如果忽略FPC（例如因为信息不足），你得到的标准误通常会偏大。这使得置信区间更宽，估计结果更为“保守”。在某些存在无法量化的额外误差来源的调查中，这种保守的做法可能并非坏事。
核心权衡：是否包含FPC，是一个在估计精度与所需信息的可获得性/准确性之间的权衡。当无法获得准确的总体信息时，报告一个稍大的标准误是常见且可接受的做法。

通过本教程，你应该掌握了使用R语言survey包分析复杂抽样数据的基本流程：从抽样、赋权、定义设计对象，到进行总体和域估计，并理解有限总体校正的作用。

151：R语言基础示例续 🧮

在本节课中，我们将继续学习如何使用R语言处理复杂的调查数据设计。我们将使用一个更复杂的数据集，演示如何定义多阶段抽样设计，并比较复杂抽样设计与简单随机抽样在估计结果上的差异。

上一节我们介绍了如何使用R语言处理简单的调查数据设计。本节中，我们将使用一个更复杂的数据集，演示如何定义多阶段抽样设计，并进行相应的数据分析。

加载数据与定义设计对象

首先，我们需要加载必要的R包和数据。我们使用NHIS.large数据集，它来自美国国家健康访谈调查，包含21,588个个体，75个层，每层有2个初级抽样单位，共计150个PSU。

require("PracTools")
require("survey")
data("NHIS.large")

接下来，我们定义一个调查设计对象，以便R语言知道如何处理数据的复杂结构。

design_nhis <- svydesign(
  ids = ~PSU,
  strata = ~Stratum,
  weights = ~SVYweight,
  data = NHIS.large,
  nest = TRUE
)

参数nest = TRUE表示PSU在每个层内是独立编号的。survey包默认使用“最终聚类”方差估计量，它假设PSU是有放回抽取的。

分析延迟医疗护理的比例

我们将分析一个名为“因费用延迟医疗护理”的变量。这是一个二分变量，表示个体在过去一年中是否因费用问题延迟就医。

以下是使用svyby函数计算各年龄组延迟医疗护理比例的方法。

age_ms <- svyby(
  formula = ~factor(DelayMed),
  by = ~AgeGroup,
  design = design_nhis,
  FUN = svymean,
  na.rm = TRUE
)

results <- age_ms[, c(2, 4)]
rownames(results) <- age_ms$AgeGroup
colnames(results) <- c("Proportion", "Std.Error")
print(round(results, 4))

输出结果显示，年轻人和老年人的延迟医疗护理比例较低，而工作年龄人群的比例较高。这与美国的医疗保险覆盖情况有关。

与简单随机抽样比较

为了理解复杂抽样设计的影响，我们将其与忽略抽样设计的简单随机抽样结果进行比较。

以下是手动计算简单随机抽样下比例和标准误的代码。

# 重新编码变量为0/1
delay_binary <- abs(NHIS.large$DelayMed - 2)

# 计算各年龄组的比例
age_ms_srs <- by(
  data = delay_binary,
  INDICES = NHIS.large$AgeGroup,
  FUN = mean,
  na.rm = TRUE
)

# 计算简单随机抽样的标准误
n <- table(NHIS.large$AgeGroup)
se_srs <- sqrt(age_ms_srs * (1 - age_ms_srs) / n)

# 比较比例和标准误
ratio_prop <- round(age_ms_srs / results[, 1], 2)
ratio_se <- round(se_srs / results[, 2], 2)
comparison <- cbind(ratio_prop, ratio_se)
colnames(comparison) <- c("P_hat Ratio", "SE Ratio")
print(comparison)

比较结果显示，使用权重对点估计（比例）影响不大，但对标准误的影响非常显著。简单随机抽样的标准误明显低估了真实的不确定性，这会导致置信区间过窄。

卡方独立性检验

我们还可以检验“延迟医疗护理”与“年龄组”是否独立。鉴于比例表格中显示的差异，我们预期会拒绝独立性假设。

以下是使用svychisq函数进行复杂抽样设计下的卡方检验的代码。

chi_test <- svychisq(
  formula = ~DelayMed + AgeGroup,
  design = design_nhis,
  statistic = "F"
)
print(chi_test)

输出结果提供了F统计量、分子自由度、分母自由度和p值。p值接近于零，因此我们拒绝独立性假设，结论是年龄与延迟医疗护理在统计上不独立。

本节课中我们一起学习了如何用R语言处理复杂的多阶段调查数据。我们定义了调查设计对象，分析了分类变量的比例，比较了复杂抽样与简单随机抽样的结果差异，并执行了考虑设计效应的卡方检验。关键点在于，忽略复杂抽样设计会严重低估标准误，导致错误的统计推断。

152：自由度

概述

在本节课中，我们将要学习抽样调查中一个重要的概念：自由度。我们将了解自由度的定义、它与方差估计的关系、一个常用的经验法则，以及它如何影响置信区间的构建。

什么是自由度？

上一节我们介绍了基本的估计方法，其中提到了自由度。本节中，我们将更详细地探讨这个概念。

自由度与方差估计量相关联，它关系到方差估计量的稳定性。随着自由度增加，方差估计量的精度会提高，这意味着方差估计量本身的方差会减小。精度提高与方差减小是同一回事，这是常用的术语。

自由度的经验法则

以下是计算自由度的一个常用经验法则，所有软件包都采用此方法。

该法则的公式是：df = Σ (N_h - 1)。其中，N_h 表示在第 h 个层中抽取的初级抽样单元的数量。因此，自由度近似等于所有层中PSU的总数减去层的总数。

如果使用这个自由度近似值，它主要由样本中第一阶段单元的数量决定，因此可能比较粗略。每个PSU内的样本单元数量在这个经验法则中完全不参与计算。这意味着，当你计算这些自由度时，从各个PSU中抽取的大样本并不会增加你的“信用”。

这个法则并不总是精确的，但因其易于应用，所以被软件包广泛采用。

自由度在置信区间构建中的作用

那么，自由度如何进入置信区间的构建呢？

某个总体参数 θ 的 1 - α 水平置信区间按以下方式计算：

CI = θ_hat ± t_{1-α/2, df} * sqrt(v(θ_hat))

其中：

θ_hat 是 θ 的估计量。
v(θ_hat) 是 θ_hat 的方差估计值，其平方根即为估计标准误。
t_{1-α/2, df} 是自由度为 df 的 t 分布的上侧 α/2 分位数。这意味着在 t 分布中，有 1 - α/2 的面积小于该值，α/2 的面积大于该值。

这个方法的有效性取决于拥有足够多的第一阶段单元大样本。本质上，当样本量足够大时，估计量 θ_hat 的分布会趋近于以真实值 θ 为中心的对称分布（如正态分布），中心极限定理开始生效。

实例分析

让我们通过一些简单的例子来看看这个法则的应用。

例1：单阶段抽样
假设有一个包含150所学校的单阶段样本（无分层）。根据经验法则，自由度 df = 150 - 1 = 149。自由度为149的 t 分布的97.5%分位数是 1.976，这非常接近标准正态分布的 1.96。当自由度很大时，与标准正态分布几乎没有差别。

例2：分层单阶段抽样
假设有一个分层单阶段的企业样本，共有3个层，各层分别有25、45和75家企业。计算自由度：df = (25-1) + (45-1) + (75-1) = 24 + 44 + 74 = 142。查看对应的 t 值，同样基本等于 1.96。自由度很多时，近似结果看起来就像标准正态近似。

例3：多阶段抽样
假设有一个多阶段样本：10个层，每层抽取2个PSU，每个PSU内抽取50户家庭（通过不放回简单随机抽样选取PSU，但PSU的抽取概率与其规模成比例）。

经验法则自由度：PSU总数 = 10 * 2 = 20。df = 20 - 10 = 10。
总户数：10 * 2 * 50 = 1000 户。

此时，根据经验法则得到的自由度是 10，远小于总户数减一（999）。对于10个自由度，t 分布的97.5%分位数是 2.28，这与标准正态的 1.96 有显著差异。

因此，经验法则可能导致置信区间计算的较大变化。使用 2.28 作为乘数构建的置信区间会比使用 1.96 更宽，这反映了由于方差估计量不稳定而带来的额外不确定性。

总结

本节课中，我们一起学习了自由度在抽样调查中的核心作用。我们了解到自由度与方差估计的稳定性相关，并掌握了一个基于初级抽样单元数量的常用经验法则 df = Σ (N_h - 1)。通过实例我们看到，当自由度较小时（例如在多阶段抽样中），用于构建置信区间的 t 乘数会显著大于标准正态值，从而导致更宽的置信区间，这恰当地反映了抽样设计带来的额外不确定性。理解这一点对于正确解释调查结果的精度至关重要。

153：均值估计

概述

在本节课中，我们将学习如何在Stata软件中，使用调查数据包进行均值估计。我们将回顾在R软件中完成相同任务的过程，并详细说明在Stata中指定抽样设计、计算加权均值及其标准误的步骤。

从R到Stata：均值估计的实现

上一节我们介绍了如何使用R的survey包计算比例表格。本节中，我们来看看如何在Stata中实现相同的均值估计过程。

在Stata中，与在R中一样，首先需要指定样本设计。以下是实现方法。

指定抽样设计

在Stata中，使用svyset命令来指定抽样设计。这是必须调用的核心语句，它需要几个参数。

以下是svyset命令的基本语法结构：

svyset psu_variable [pweight=weight_variable], strata(stratum_variable) fpc(fpc_variable)

psu_variable：指定初级抽样单位字段。
pweight=weight_variable：在方括号内给出调查权重变量。
strata(stratum_variable)：在括号内指定分层变量。
fpc(fpc_variable)：在括号内指定包含有限总体校正因子的字段（如果存在）。

上面代码中加下划线的部分对应Stata中需要你提供的字段名，即分层变量和FPC变量，我们稍后会具体填写。

除了这些，还可以指定其他设计特征，例如，如果使用复制权重方差估计量（如刀切法、平衡重复复制或自助法），复制权重是主要可指定的选项之一。这些在Stata和R的survey包中都是可能的。

实例分析：NHIS数据

让我们看一个与之前在R中分析过的相同例子。

之前，我们从NHIS（全国健康访谈调查）总体中，抽取了一个分层简单随机样本（不放回），并且包含了按层计算的有限总体校正因子。以下是在Stata中的操作步骤。

首先，我将R中的样本数据文件以Stata格式写出，并保存在Stata可以找到的位置。在Stata中读取该文件的命令是：

use sampledata.dta, clear

其中，.dta是Stata数据文件的标准后缀，, clear选项表示清除内存中的任何现有数据。

接着，我执行svyset语句。在这个案例中，没有明确的PSU，但有一个名为ID的计数器，所以我将其指定为PSU。

svyset id [pweight=svyweight], strata(edc_r) fpc(prob)

调查权重pweight是svyweight。
分层变量strata是重新编码的教育值edc_r。
- 注意：Stata变量名中可以使用下划线，但不能在中间使用句点，这与R的规则正好相反。
有限总体校正因子fpc我指定为prob变量。这里再次应用了那个规则：如果软件看到一个介于0和1之间的值，它会将其解释为抽样分数，Stata正是这样处理的。

执行上述命令后，Stata会反馈一系列信息，说明它从你的语句中理解了什么：它确认了调查权重，告诉你它将使用线性化或泰勒级数方差估计量，说明了处理缺失单元的方式，并确认了分层变量edc_r和FPC变量prob。这一切都符合我们的预期。

计算调查加权均值

以下是来自mean过程的输出行。

在Stata中，有一个很好的惯例：如果你在通常的Stata命令前加上svy:前缀，Stata会将其解释为“执行这个常规过程，但使用调查特定的方法”。因此，计算均值mean时，它将使用权重，并且在估计标准误时，会考虑分层和聚类设计。

我再次计算age的均值，这与我们在R中所做的相同。

svy: mean age, over(edc_r)

在Stata中，over()类似于R中的by。这里我按分层edc_r进行计算。

然后，它向我反馈了一些关于发现的良好信息：有400个PSU（初级抽样单位），观察总数为400，这与我们预期的一致。有趣的是，此处权重的总和恰好等于总体大小，这是因为我们获得的是一个具有固定层大小的分层简单随机样本。

因此，我们使用的实践工具总体中，总体大小为3，911。

设计自由度是通过在每个层内减去1来计算的。我有4个层，400个PSU，因此自由度为396。这意味着它将使用正态近似来计算置信区间。

接着，它给出了一个清晰易读的均值表格。如果回顾R的输出，你会发现平均年龄的均值和标准误与此处完全相同。

另一个优点是，它会自动计算置信区间。例如，第一个年龄组的平均年龄置信区间约为39.53到46.42。如前所述，由于自由度很大，这里使用的是正态近似。

总结

本节课中我们一起学习了在Stata中进行调查加权均值估计的方法。总结如下：

Stata和R使用了相同的不放回抽样标准误估计量，这符合分层简单随机不放回抽样的预期，并给出了相同的标准误。
默认情况下，当请求表格时，Stata会为每个域均值生成置信区间。
本例中，自由度为396，因此软件将使用T分布来获取乘数。但由于自由度很大，T分布实际上已接近标准正态分布，因此本例中看到的正是这种类型的置信区间。

154：多阶段抽样

概述

在本节中，我们将学习如何使用Stata软件对复杂抽样设计（如多阶段抽样）的数据进行基本估计。我们将使用一个来自R软件PracTools包的示例数据集，演示如何在Stata中设置调查设计、计算加权比例并进行独立性检验。

数据准备与变量标记

首先，我们需要准备数据并为分类变量设置标签，以便输出更清晰易读。

以下是具体步骤：

使用label define语句创建一个名为age_lab的标签，为五个年龄组定义描述性名称。
使用label values语句将刚创建的age_lab标签关联到数据集中的age_group变量。

完成此步骤后，在后续的表格输出中，年龄组将以我们定义的标签形式显示。

设置调查设计

上一节我们介绍了数据准备，本节中我们来看看如何在Stata中指定复杂的调查设计。

我们使用svyset命令来定义调查设计的关键参数：

PSU变量：初级抽样单位，此处变量名为psu。
权重变量：调查权重，此处变量名为svy_wt。
分层变量：抽样层，此处变量名为stratum。

通过此命令，Stata将知晓数据的复杂抽样结构，并在后续分析中应用正确的方差估计方法（默认使用“最终聚类”法，与R的survey包相同）。

执行交叉表分析

设置好调查设计后，我们可以进行具体的分析了。我们将检验年龄组与是否延迟就医这两个变量之间的关系。

我们使用svy: tabulate命令来生成交叉表，并指定row选项以计算行比例（即每个年龄组内延迟就医的比例）。命令前的svy:前缀告知Stata需基于之前定义的复杂抽样设计进行计算。

解读分析结果

现在，让我们详细解读Stata输出的结果。

调查设计摘要：

数据包含 75 个抽样层。
每层包含 2 个初级抽样单位，共计 150 个PSU。
分析使用的观测数（剔除缺失值后）为 21,464。
根据权重推算的总体规模约为 6600万。
设计自由度为 75（即层数）。

比例估计：
表格显示了各年龄组中延迟就医（值为1）的比例。这些加权比例与之前在R软件中得到的结果完全一致，因为两者使用了相同的估计算法。

独立性检验：
Stata默认提供了经过Rao-Scott调整的卡方检验（其统计量服从F分布）。结果显示：

F统计量的值与R软件计算的结果相同。
P值极小（约等于0）。
结论：在该数据集中，年龄与是否延迟就医并非相互独立。

Stata的额外功能

除了上述基本分析，svy: tabulate命令还支持许多其他有用的输出选项：

计算标准误：为比例估计值提供精度度量。
计算置信区间：为比例估计提供区间估计。
计算设计效应：评估复杂抽样设计对估计效率的影响。
显示未加权的单元格计数：直观了解每个单元格的基础样本量，这有助于判断估计的稳定性。

这些功能使得Stata成为处理复杂调查数据的强大工具。

总结

本节课中，我们一起学习了在Stata中分析复杂抽样调查数据的基本流程。我们涵盖了从数据准备、调查设计设置，到执行交叉表分析和解读结果的全过程。关键点在于使用svyset正确定义抽样结构，并使用svy:前缀命令执行分析，以确保方差估计的正确性。结果显示，Stata与R软件在核心估计上结果一致，并且Stata提供了丰富的附加输出选项以供深入分析。

155：R语言中的分位数估计 📊

在本节课中，我们将学习如何在R语言中，针对复杂调查数据估计分位数（如中位数、四分位数）及其置信区间。与简单的均值估计不同，分位数估计需要特殊的方法来计算其精确度。

概述

上一节我们介绍了基本的估计方法。本节中，我们来看看如何估计分位数。分位数估计（如中位数）是一种非线性统计量，这意味着我们之前见过的用于均值和比例的方差公式不再适用。因此，我们需要采用不同的方法来计算其标准误和置信区间。

分位数估计的原理

标准做法是首先计算分位数的置信区间，然后如果需要标准误，再从这个区间反推出来。

计算过程如下：先计算置信区间的长度。然后，我们假设这个区间是基于T分布的对称区间。一个T区间的长度等于 2 * t乘数 * 标准误，因为你需要在点估计值两边同时加减。通过某种分位数计算方法得到区间长度后，就可以解出标准误的估计值。

例如，如果置信水平 1 - α 是 0.95，且自由度很大（此时t值近似于正态分布的z值），那么标准误的估计值就是：置信区间长度 / (2 * 1.96)。

在R的survey包中，有两种主要的置信区间计算方法，分别以发明者命名：

Woodruff方法：这是默认方法。
Francisco-Fuller方法：计算更密集，但可能更精确。

实践示例：估计医院支出分位数

让我们通过一个具体例子来学习如何在R中操作。我们将使用PracTools包中的“精神健康组织调查”（SMHO）数据集，并从中抽取一个概率与规模成比例（PPS）的样本。

以下是操作步骤：

首先，加载必要的R包并准备数据。

require(PracTools)
require(sampling)
data("SMHO.N874")

接着，设定抽样规模并计算入样概率。我们使用“住院床位数”作为规模度量。为了避免规模为零的情况，将所有小于等于5的床位数重新编码为5。

size <- SMHO.N874$BEDS
size[size <= 5] <- 5
n <- 100
pk <- inclusionProbabilities(size, n)
summary(pk)

现在，设置随机种子以确保结果可重复，然后进行系统PPS抽样。

set.seed(428274453)
sam <- UPsystematic(pk)

从总体中提取被抽中的样本数据，并计算调查权重。权重是入样概率的倒数。

samp <- getdata(SMHO.N874, sam)
samp <- cbind(samp, WT = 1/pk[sam==1])

为了便于分析，我们将支出总额（EXPTOTAL）转换为以百万为单位。

samp$ExpMil <- samp$EXPTOTAL / 1e6

使用survey包定义复杂的调查设计。由于是PPS抽样，我们这里没有设定层或初级抽样单位（PSU），但指定了权重。

require(survey)
smho.dsgn <- svydesign(ids = ~0, strata = NULL, weights = ~WT, data = samp)

计算分位数及其置信区间

核心函数是svyquantile。我们可以一次性估计多个分位数，并请求计算置信区间。

以下代码估计第一四分位数、中位数和第三四分位数：

q.est <- svyquantile(~ExpMil, design = smho.dsgn,
                     quantiles = c(0.25, 0.5, 0.75), ci = TRUE)
q.est

函数将输出点估计值和置信区间。例如，结果可能显示：

第一四分位数：4.52（百万），95% CI：[1.05, 7.31]
中位数：7.26（百万），95% CI：[3.22, 11.29]
第三四分位数：11.67（百万），95% CI：[7.50, 23.74]

请注意，这些置信区间通常不是对称的，这是分位数估计的一个特点，在数学上是完全合理的。

如果你想使用Francisco-Fuller方法而非默认的Woodruff方法，可以指定interval.type参数：

q.est_ff <- svyquantile(~ExpMil, design = smho.dsgn,
                        quantiles = c(0.25, 0.5, 0.75),
                        ci = TRUE, interval.type = "score")

其他软件选择

虽然不如均值、总量和比例估计的软件支持那么广泛，但其他主流统计软件也提供分位数估计功能：

SAS：可以使用PROC SURVEYMEANS过程。
WesVar：这款免费软件可以通过复制法（replicate methods）计算分位数的标准误。
Stata：目前版本尚不能直接计算复杂调查设计下分位数的标准误，但如果用户需求强烈，未来可能会添加此功能。

总结

本节课中我们一起学习了如何在R语言中处理复杂调查数据的分位数估计。关键点在于，分位数是非线性统计量，需要特殊方法（如Woodruff或Francisco-Fuller法）来构建置信区间，并可通过区间长度反推标准误。我们通过svyquantile()函数完成了从数据准备、调查设计定义到最终分位数估计的全过程。这标志着基础估计模块的结束，接下来我们将进入关于模型参数估计的新模块。

156：模型参数估计导论 🎯

在本节课中，我们将学习如何估计复杂调查数据中的模型参数。我们将从理解模型估计的整体框架开始，探讨样本权重的重要性，并解释为何需要考虑抽样设计中的分层与整群效应。

上一模块我们讨论了均值、总值等简单指标的估计。本节中，我们将转向更复杂的模型参数估计。

由于我们处理的是有限总体，理解整个过程是有益的。一种思考方式是：假设存在一个上层的超总体模型，这实际上是我们试图发现或估计的目标。该模型会生成一个有限总体。我们从该模型中获得实现值，从而创建出有限总体。然后，我们从有限总体中抽取样本，并基于样本拟合一个模型。

那么，这个拟合的模型在估计什么？如图所示，我们可以从两个角度思考：

如果模型设定完全正确，与超总体模型一致，那么拟合的模型将估计这个启动整个过程的超总体模型。
另一方面，如果模型设定有误（例如遗漏了某些协变量），我们仍可以说，拟合的模型旨在成为针对整个有限总体的最佳拟合模型。它可能在设定上存在遗漏，但仍在努力瞄准完整的有限总体模型。

另一种理解完整有限总体模型的方式是：它是如果你拥有整个总体数据（即普查数据）时会拟合的模型。因此，它常被称为普查模型。这是我们通过后续将展示的拟合算法所瞄准的目标。

在有限总体估计中，一个存在争议的观点是：如果同一个模型既适用于样本也适用于总体，则无需使用权重。当你的样本是总体的一个“微型缩影”时，这确实成立。然而，如果你的抽样设计导致样本与总体失衡（例如，你针对某些子群进行了抽样，或使用了与规模成比例的概率抽样，使得大单位在样本中出现更频繁），那么上述情况可能不成立。为了能估计那个普查模型，你将需要使用权重。

此外，你还需要考虑抽样设计中的分层和整群效应，因为它们会影响标准误。这些效应可能使标准误变大或变小，但绝对会产生影响，不容忽视。

因此，我们的流程是使用权重。这意味着我们将明确地以估计普查模型为目标。如果我们努力正确地设定模型，那么普查模型在形式上也将与我们希望作为整个过程基础的超总体模型一致。

在接下来的视频中，我们将看到一些如何进行此类估计的示例。

本节课中，我们一起学习了复杂调查数据中模型参数估计的基本框架。我们明确了拟合模型的目标（超总体模型或普查模型），理解了在样本与总体分布不一致时使用权重的必要性，并认识到分层与整群设计对标准误的影响。下一节我们将通过具体示例来实践这些概念。

157：估计方法 🧮

在本节课中，我们将学习如何估计模型参数。我们将重点介绍一种名为“伪最大似然估计”的技术，这是分析调查数据的软件包中常用的方法。我们将了解其基本步骤，并认识一些能够实现此方法的软件工具。

上一节我们介绍了调查数据分析的模型框架，本节中我们来看看如何实际估计这些模型的参数。

我们将使用一种名为伪最大似然估计的技术。该技术在分析调查数据的软件包中均有提供，因此是我们的学习目标。其实现步骤在概念上相当简单，但计算细节可能非常复杂，我们不会深入探讨这些细节。

核心思想是，首先写下所谓的全有限总体似然函数。如果你了解数理统计，它就是样本中所有观测值的联合分布。然后，我们推导出一些被称为估计方程的式子。因此，第一步就是完成这项工作，假设我们进行了一次普查，即样本包含了整个有限总体。

这些估计方程的一个优点是，它们通常看起来像是有限总体总和，其中涉及与模型相关的某种残差总和。

例如，对于线性回归，估计方程的形式如下：

∑_{i ∈ S} w_i * x_i * (y_i - x_i^T * β_hat) = 0

其中：

∑_{i ∈ S} 表示对样本集合 S 中的所有单位求和。
w_i 是调查权重。
x_i 是模型中的协变量向量。
(y_i - x_i^T * β_hat) 是残差，即观测值 y_i 与协变量线性组合预测值之间的差。
β_hat 是待估计的模型参数。

一旦得到这个方程，接下来的思路就是将其设为零，然后找出求解 β_hat 的方法。这就是可能出现复杂性的地方。在线性回归中，求解相对直接；但在逻辑回归等模型中，求解则更为困难。

以下是能够执行此类估计的软件及其支持的模型：

R语言的 survey 包：可以处理线性回归、逻辑回归、Probit模型、互补双对数模型、泊松回归、对数线性模型以及Cox比例风险模型。这是一个相当丰富的模型集。
Stata软件：选择更为广泛。它包含了R survey 包支持的所有模型，以及许多计量经济学家感兴趣的其他模型，例如多项逻辑回归、有序逻辑Probit模型、删失与区间回归、Heckman选择模型、一般非线性最小二乘法和多水平模型。如果你使用Stata，这将是一个非常棒的工具集。

我们将在后续视频中详细探讨这些内容。

本节课中，我们一起学习了模型参数的估计方法。我们了解到，伪最大似然估计是处理复杂调查数据时常用的技术，其核心在于构建并求解估计方程。我们还简要介绍了R和Stata等软件中提供的丰富模型支持，为后续的实际分析奠定了基础。

158：线性模型 🧮

在本节课中，我们将学习如何在R语言中，使用survey包来拟合一个考虑复杂抽样设计（如分层、整群和权重）的线性回归模型。我们将通过一个实际的数据集示例，演示从设置调查设计对象到拟合模型、解读结果以及进行系数联合检验的完整流程。

上一节我们介绍了复杂抽样设计的基本概念，本节中我们来看看如何在实际建模中应用这些设计。

设置调查设计对象

首先，我们需要加载survey包并准备数据。我们将使用该包内置的“学术表现指数”（API）数据集。该数据集包含了加州所有学生数超过100的学校信息，以及基于这些数据的多种概率抽样样本。

以下是设置调查设计对象的步骤：

加载包与数据：使用library(survey)加载包，并通过data(api)加载数据集。
定义设计对象：使用svydesign()函数。对于本例中的分层简单随机抽样样本apistrat，我们需要指定：
- id = ~1：表示没有整群设计。
- strata = ~stype：按学校类型（stype）进行分层。
- weights = ~pw：使用抽样权重（pw字段）。
- data = apistrat：指定使用的数据集。
- fpc = ~fpc：指定有限总体校正因子（FPC），这在某些层的抽样比例较大时很重要。

对应的R代码如下：

library(survey)
data(api)
dstrat <- svydesign(id = ~1, strata = ~stype, weights = ~pw, data = apistrat, fpc = ~fpc)

拟合线性回归模型

在定义了调查设计对象dstrat之后，我们就可以使用svyglm()函数来拟合广义线性模型。在本例中，我们拟合一个线性回归模型。

我们想要研究2001年的学术表现指数（api00）与以下预测变量之间的关系：

ell：学校中英语学习者（非英语母语学生）的百分比。
meals：符合膳食补助条件的学生百分比（作为低收入指标）。
mobility：本学年新入校学生的百分比。

以下是拟合模型的代码：

m1 <- svyglm(api00 ~ ell + meals + mobility, design = dstrat)

这行代码的含义是：以api00为因变量，以ell、meals和mobility为自变量，在考虑dstrat所定义的复杂抽样设计的前提下，拟合一个线性模型，并将结果保存在对象m1中。

解读模型结果

我们可以使用summary()函数来查看详细的模型结果。

summary(m1)

输出结果将包含以下关键信息：

系数估计值 (Coefficients Estimate)：每个预测变量对应的回归系数。
标准误 (Std. Error)：考虑抽样设计后系数估计的标准误差。
t值 (t value)：系数估计值除以其标准误，用于检验该系数是否显著不为零。
P值 (Pr(>|t|))：与t值对应的p值。通常p值小于0.05表明该系数在统计上显著。

从示例输出可知：

(Intercept) 和 meals 的系数具有很高的统计显著性（p值很小）。
ell 和 mobility 的系数则不那么显著（p值较大）。

进行系数联合检验

有时，我们可能需要检验一组系数是否同时为零（例如，检验两个不显著的变量是否可以从模型中移除）。regTermTest()函数可以用于此目的。

例如，我们想联合检验ell和mobility的系数是否都为零：

regTermTest(m1, ~ ell + mobility, method = "Wald")

m1：我们之前拟合的模型对象。
~ ell + mobility：指定要检验的变量。
method = "Wald"：指定使用Wald检验方法。

检验结果会提供一个F统计量及其p值。如果p值大于0.05（如示例中的0.35），则我们不能拒绝原假设，即这两个变量的系数同时为零。这从统计上支持了“ell和mobility对预测api00没有显著贡献”的观察结论。

本节课中我们一起学习了如何在R中为复杂抽样调查数据建立线性回归模型。关键步骤包括：使用svydesign()定义抽样设计，使用svyglm()拟合模型，以及使用regTermTest()对一组系数进行联合显著性检验。这些方法确保了我们的统计推断考虑了抽样设计的复杂性，从而得到更有效的估计和检验。

在下一个视频中，我们将继续探讨此模型的诊断方法。

159：R语言中的诊断分析 📊

在本节课中，我们将学习如何在R语言中对调查数据进行诊断分析。诊断分析是检查统计模型是否恰当、数据是否存在问题的重要步骤。我们将重点介绍如何计算和解读标准化残差，并使用图形化方法直观地检查模型假设。

概述

在之前的课程中，我们学习了如何为调查数据拟合模型。然而，拟合模型后，评估模型是否合适至关重要。本节将演示如何为复杂调查数据计算标准化残差，并通过绘图进行诊断。目前，专门的R包很少提供这些功能，因此我们通常需要自己编写代码。我们将以标准化残差的计算和可视化作为示例。

计算标准化残差

我们将使用与之前视频中相同的模型和数据——学术表现指数数据文件。标准化残差的计算公式如下：

公式： 标准化残差 = (Y_i - Ŷ_i) / σ̂

其中，Y_i 是观测值，Ŷ_i 是模型预测值，σ̂ 是模型误差项标准差的估计值。在理想情况下，如果模型设定正确，这些标准化残差应近似服从均值为0、方差为1的分布。

这里的关键是估计 σ̂（即模型误差方差）。对于调查数据，我们可以利用调查权重来获得一个近似无偏的估计：

公式： σ̂² = Σ (w_i * r_i²) / Σ w_i

其中，w_i 是第 i 个样本单元的调查权重，r_i 是该单元从模型中得到的残差。

以下是实现上述计算的R代码：

# 加载必要的包并设定设计
require(survey)
data(api)
dstrat <- svydesign(id=~1, strata=~stype, weights=~pw, data=apistrat, fpc=~fpc)

# 拟合模型（示例：以meals和full为预测变量解释api00）
m1 <- svyglm(api00 ~ meals + full, design=dstrat)

# 计算模型误差方差σ̂²的加权估计值
s2 <- weighted.mean(m1$residuals^2, w=apistrat$pw)

# 计算标准化残差
std_res <- m1$residuals / sqrt(s2)

# 查看标准化残差的摘要统计
summary(std_res)

运行代码后，查看标准化残差的摘要。你可能会发现其均值并非精确为0（例如-0.28），且分布不完全对称（例如最小值-3.86，最大值2.54）。在标准正态分布中，大部分值应在±3之间，因此我们的结果提示可能需要进一步检查。

可视化诊断

图形是强大的诊断工具。我们可以绘制标准化残差与潜在预测变量（如县代码、学校注册人数）的关系图，并添加非参数平滑曲线来观察趋势。

以下是创建诊断图的R代码：

# 设置图形布局为1行2列
par(mfrow=c(1,2))

# 第一幅图：标准化残差 vs. 县代码
plot(apistrat$cnum, std_res,
     xlab="County Number",
     ylab="Standardized Residuals",
     main="Residuals by County")
abline(h=0, lty=2) # 添加y=0的参考线
lines(lowess(apistrat$cnum, std_res), col="red", lwd=2) # 添加非参数平滑曲线

# 第二幅图：标准化残差 vs. 学校注册人数
plot(apistrat$enroll, std_res,
     xlab="School Enrollment",
     ylab="Standardized Residuals",
     main="Residuals by Enrollment")
abline(h=0, lty=2)
lines(lowess(apistrat$enroll, std_res), col="red", lwd=2)

解读诊断图

现在，我们来解读生成的图形：

县代码图：左侧图形展示了标准化残差按县代码的分布。非参数平滑曲线（红色）在零线下方略有波动，但未显示出强烈的系统性模式。图中可能存在一两个异常点（远离其他点的残差），值得进一步查看。总体来看，没有明显证据表明需要将“县”作为变量纳入模型。
注册人数图：右侧图形展示了标准化残差与学校注册人数的关系。这里的非参数平滑曲线显示出明显的线性趋势，并非围绕零线水平波动。这强烈表明，“注册人数”这个变量与学术表现指数相关，且当前模型（未包含该变量）未能捕捉这种关系。因此，注册人数应该被考虑加入模型中。

通过这种简单的诊断，我们获得了改进模型的重要线索：需要考虑纳入“学校注册人数”这一预测变量。

总结

本节课我们一起学习了如何为基于复杂调查数据拟合的模型执行基本的诊断分析。我们重点掌握了：

计算标准化残差：利用调查权重估计模型误差方差，并据此计算标准化残差。
可视化诊断：通过绘制残差与关键变量的关系图，并叠加非参数平滑曲线，直观地检查模型假设（如线性、同方差性）以及发现未被模型捕捉的变量关系。

诊断分析是模型构建中迭代和完善的关键一步。虽然针对复杂调查数据的现成诊断工具包较少，但通过自己编程实现核心诊断指标（如本例中的标准化残差）是完全可行的，并能提供极具价值的洞察。

160：Stata中的线性模型 📊

在本节课中，我们将学习如何在Stata统计软件中拟合线性回归模型。我们将使用与之前R语言课程中相同的数据集和模型，以便对比两种软件的操作与结果。您将看到如何加载数据、设置调查权重、运行回归分析、提取残差以及进行联合假设检验。

上一节我们介绍了在R中处理调查数据并进行线性回归的方法。本节中我们来看看如何在Stata中完成相同的任务。

数据加载与调查设计设置

首先，我们需要将数据加载到Stata中并设置调查设计。这包括指定聚类、权重和有限总体校正。

以下是具体步骤：

加载数据：使用 use 命令并配合 clear 选项清空当前内存中的数据。
```
use api_data.dta, clear
```
设置调查设计：使用 svyset 命令。在本例中，cds 变量仅作为计数器，意味着数据没有聚类结构。我们使用 pweight 选项指定权重变量 pw，并使用 fpc 选项指定有限总体校正变量。
```
svyset cds [pweight=pw], fpc(fpc_variable)
```

运行线性回归模型

设置好调查设计后，我们可以运行线性回归模型。在Stata中，只需在标准回归命令 regress 前加上 svy: 前缀即可。

我们的模型以学校学术表现（api00）作为因变量，自变量包括学校中英语学习者的百分比（ell）、有资格获得膳食补贴的学生百分比（meals）以及刚入学第一年的学生百分比（mobility）。

svy: regress api00 ell meals mobility

运行上述命令后，Stata会输出结果。输出内容包括观测数量（此处为权重的总和）、整体模型的F检验、R平方值以及各个系数的估计值和标准误。

需要注意的是，Stata将常数项（截距）标记为 _cons 并放在列表最后，这与R中将截距放在最前的惯例不同。在本例中，meals 和常数项是显著的，而 ell 和 mobility 看起来不显著。

提取与标准化残差

模型拟合后，我们可能需要检查残差。在Stata中，我们可以使用 predict 命令来获取残差。

以下是具体操作：

计算残差：使用 predict 命令并指定 residual 选项，将残差保存到新变量（例如 r）中。
```
predict r, residual
```
标准化残差：与在R中类似，我们需要手动计算标准化残差。这通常涉及用残差除以估计的标准差。

进行联合假设检验

最后，我们可能想检验多个系数是否同时为零。例如，检验 ell 和 mobility 的系数是否同时为零。

在Stata中，我们使用 test 命令来进行这种联合假设检验。

test (ell=0) (mobility=0)

命令执行后，会给出F统计量和对应的P值。在本例中，F统计量为1.04，P值为0.355。这意味着我们不能拒绝“这两个系数同时为零”的原假设，结论与在R中分析时一致。

注意：Stata报告的分母自由度是196，而R中报告的是194。这种细微差异源于两个软件在根据检验参数数量调整自由度时采用了略有不同的方法。对于大样本，这种差异通常不重要；但在小样本或检验参数较多的情况下，可能会看到更明显的差异，甚至影响到显著性结论。

本节课中我们一起学习了在Stata中处理调查数据、拟合线性回归模型的全过程。我们涵盖了从数据加载、调查设计设置、模型拟合、结果解读到残差提取和联合假设检验的关键步骤。通过对比发现，Stata与R在核心计算上结果一致，主要区别在于语法和部分输出的呈现方式。掌握这些基本操作，是使用Stata进行复杂调查数据分析的重要基础。

161：R语言中的逻辑回归模型 📊

在本节课中，我们将学习如何在R语言中拟合逻辑回归模型。我们将使用一个学术表现数据集，通过逻辑回归来预测学校是否达到了API分数的全校性增长目标。课程内容包括模型拟合、系数子集检验以及分类预测变量的优势比解读。

数据准备与模型设定

首先，我们需要加载必要的R包并准备数据。我们将使用survey包中的学术表现数据集（API数据）。以下是数据集中我们将要使用的变量：

sch.wide：学校是否达到增长目标的指示变量（是/否）。
ell：英语学习者的百分比。
meals：享受补贴餐食的学生百分比。
mobility：学生流动性百分比。
enrollment：学校的注册学生人数。
hsg：父母为高中毕业生的百分比。
col.grad：父母拥有大学学位的百分比。
yr.rnd：学校是否为全年制学校的指示变量（是/否）。

以下是加载数据并创建调查设计对象的R代码：

require(survey)
data(api)
dstrat <- svydesign(id=~1, strata=~stype, weights=~pw, data=apistrat, fpc=~fpc)

上一节我们介绍了数据和变量，本节中我们来看看如何设定逻辑回归模型。

拟合逻辑回归模型

在R中，我们使用svyglm函数来拟合逻辑回归模型，这与拟合线性模型使用的是同一个函数。关键区别在于需要指定family参数。

以下是拟合以sch.wide为因变量，其他变量为预测变量的逻辑回归模型的代码：

m2 <- svyglm(sch.wide ~ ell + meals + mobility + enrollment + hsg + col.grad + yr.rnd,
             design = dstrat,
             family = quasibinomial(link = "logit"))
summary(m2)

在family参数中，我们指定quasibinomial(link = "logit")来执行逻辑回归。如果使用link = "probit"，则拟合的是概率单位模型；使用link = "cloglog"则拟合互补双对数模型。

运行summary(m2)后，我们可以查看模型输出，重点关注各个预测变量的显著性。例如，enrollment（注册人数）可能高度显著，而mobility（流动性）和col.grad（父母大学学历百分比）可能在10%的水平上显著。其他变量如yr.rnd（全年制学校）可能接近但不完全达到显著性水平。

检验系数子集

与线性模型类似，我们可以检验一组系数是否同时为零。这通过regTermTest函数实现。

假设我们想检验ell（英语学习者百分比）、meals（补贴餐食百分比）和hsg（父母高中学历百分比）这三个变量的系数是否同时为零。以下是操作代码：

regTermTest(m2, ~ ell + meals + hsg)

函数将执行Wald检验，并返回F统计量、自由度及p值。例如，结果可能显示p值为0.8686，远大于0.05，表明没有足够证据拒绝这三个系数同时为零的原假设。这意味着在模型中，这三个预测变量可能对结果没有显著的联合影响。

总结与下节预告

本节课中我们一起学习了如何在R中执行逻辑回归分析。我们涵盖了从数据准备、使用svyglm函数拟合模型，到使用regTermTest函数对一组系数进行显著性检验的完整流程。

在下一节视频中，我们将进一步探讨如何在逻辑回归模型中估计和解释优势比，特别是针对分类预测变量，这将帮助我们更直观地理解变量效应的大小。

162：使用R survey包计算逻辑回归中的比值比

在本节课中，我们将要学习如何在R语言的survey包中，为逻辑回归模型计算比值比。我们将从比值比的基本概念开始，逐步过渡到如何在考虑复杂抽样设计的模型中实现它，并最终解释其结果。

概述

逻辑回归是分析二分类结果变量的常用方法。当我们的数据来自复杂抽样调查时，需要使用专门的包（如R的survey包）来正确估计模型参数。本节课的核心是理解如何从这些参数估计中，计算出有意义的比值比，并评估其统计显著性。

比值比的基本概念

上一节我们介绍了逻辑回归的模型设定，本节中我们来看看比值比的具体定义。

比值是指拥有某个特征的概率与不拥有该特征的概率之比。其公式为：
Odds = P / (1 - P)
其中，P 是拥有特征的概率。

比值比 则是比较两个类别（例如男性和女性）时，其比值的比率。例如，比较男性和女性患糖尿病的比值比公式为：
OR = (Odds_diabetes | Male) / (Odds_diabetes | Female)

逻辑回归模型中的比值比

在逻辑回归中，我们实际建模的是比值的对数（log-odds）。模型形式如下：
log(P / (1 - P)) = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ
其中，X 代表各种协变量，可以是定量变量（如教育年限）或分类变量（如性别、地区）。

这种设定使得在log-odds尺度上，模型是线性的，便于估计。当我们比较一个二分类变量（如X₁，男性=1，女性=0）的两个类别时，在其他变量相同的情况下，log-odds的差值就是该变量的回归系数 β₁。

为了得到更容易解释的比值比，我们需要将log-odds尺度转换回原始尺度。这通过取指数实现：
Odds Ratio = exp(β₁)
这个值就代表了男性相对于女性患糖尿病的比值比。

在R survey包中实现

现在，让我们看看如何在考虑抽样设计的R survey包中具体操作。

首先，需要加载必要的包和数据，并定义抽样设计。以下是一个示例代码框架：

require(survey)
data <- read.csv(‘your_data.csv’)
design <- svydesign(id = ~1, strata = ~stratum_var, weights = ~weight_var, data = data)

接着，我们拟合一个逻辑回归模型。以下是一个预测学校是否达到年度进步目标的模型示例：

model <- svyglm(target_met ~ mobility + enrollment + pct_college_grad + factor(year_round),
                design = design,
                family = quasibinomial(link = “logit”))
summary(model)

模型输出会给出各个预测变量的回归系数估计值。

计算与解释比值比

从模型输出到比值比的计算非常简单。假设我们关注year_round（是否为全年制学校）这个变量，其系数估计为 β_yearround。

我们通过指数函数计算其比值比：

or_yearround <- exp(coef(model)[“factor(year_round)1”])
print(or_yearround)

如果计算结果约为3.76，则意味着全年制学校达到增长目标的可能性是非全年制学校的3.76倍。

然而，仅有点估计是不够的，我们还需要评估这个结果的可靠性。

评估显著性：置信区间

为了判断比值比是否显著不等于1（即无效应），我们需要查看其置信区间。

以下是计算回归系数置信区间并将其转换为比值比尺度的方法：

# 计算回归系数的置信区间
ci_coef <- confint(model, parm = “factor(year_round)1”)
# 将置信区间转换到比值比尺度
ci_or <- exp(ci_coef)
print(ci_or)

如果得到的95%置信区间（例如[0.63, 22.5]）包含了数值1，则说明在统计上我们没有足够证据表明全年制学校与非全年制学校在达标可能性上有显著差异。尽管点估计3.76看起来很大，但宽广的置信区间提示我们估计存在很大的不确定性。

总结

本节课中我们一起学习了在复杂抽样调查数据分析中计算和解释比值比的全过程。

理解概念：我们回顾了比值与比值比的定义，以及它们在逻辑回归模型中的对应关系——即回归系数经过指数变换后即为比值比。
软件实现：我们演示了如何使用R的survey包，在考虑抽样权重、分层和聚类的情况下拟合逻辑回归模型。
计算解释：我们掌握了如何从模型输出的系数中，通过exp()函数计算比值比，并理解其实际含义（例如，某个群体发生事件的可能性是参照群体的多少倍）。
统计推断：我们强调了仅有点估计是不够的，必须通过检查置信区间是否包含1（或系数区间是否包含0）来评估结果的统计显著性。

记住，当置信区间包含1时，应谨慎解释比值比，因为这可能意味着效应在统计上并不显著。扎实的分析需要将点估计与区间估计结合起来进行综合判断。

163：Stata中的逻辑回归 📊

在本节中，我们将学习如何在Stata统计软件中执行逻辑回归分析，并获取优势比估计值。我们将使用与之前R语言示例中相同的数据集和模型，以便进行直接比较。通过本教程，你将掌握在Stata中处理复杂调查数据、运行逻辑回归模型以及解释结果的基本流程。

上一节我们介绍了在R中运行逻辑回归并获取优势比的方法。本节中，我们来看看如何在Stata中完成相同的分析任务。

数据加载与调查设计设定

首先，我们需要加载数据并指定调查设计。以下是相应的Stata代码：

use APIpistrat.dta, clear
svyset [pweight = pw], strata(stype) fpc(fpc) vce(linearized)

这段代码执行以下操作：

使用 use 命令加载名为 APIpistrat.dta 的Stata格式数据集。
使用 svyset 命令设定调查设计。其中，pweight = pw 指定了概率权重变量，strata(stype) 指定了分层变量，fpc(fpc) 指定了有限总体校正因子，vce(linearized) 设定了方差估计方法。

变量重新编码

为了确保模型正确解释因变量，我们需要将分类变量重新编码为0/1格式。原始变量 school_wide 表示学校是否达到了API分数的全校增长目标。

generate sw01 = school_wide
recode sw01 (1=0) (2=1)

这段代码创建了一个新变量 sw01。通过 recode 命令，我们将原值为1的类别重新编码为0（表示“未达到目标”），将原值为2的类别重新编码为1（表示“达到目标”）。这样，模型将直接预测“达到目标”的概率。

运行逻辑回归模型

设定好数据和变量后，我们可以运行考虑调查设计的逻辑回归模型。模型公式如下：

logit(P(sw01=1)) = β₀ + β₁enrollment + β₂college_grad + β₃*year_round

在Stata中，使用 svy: 前缀来运行考虑复杂调查设计的模型。

svy: logit sw01 enrollment college_grad year_round

运行此命令后，Stata会输出模型的回归系数估计值、标准误、z统计量和p值。与之前R的输出结果相比，系数估计值应完全相同，标准误可能因软件内部计算公式的细微差别而有极小的不同，但这不会产生实质性的影响。

例如，对于 year_round 变量（表示是否为全年制学校），其系数置信区间可能从-0.46到3.11，这与R的结果相似。这表明我们的样本数据尚不足以精确判断全年制学校与非全年制学校在达标概率上是否存在显著差异。

获取优势比及其置信区间

逻辑回归的结果通常以优势比的形式呈现，因为它更直观。在Stata中，获取优势比需要使用 logistic 命令而非 logit 命令。

svy: logistic sw01 enrollment college_grad year_round

执行上述命令后，Stata将直接输出优势比估计值。例如，year_round 变量的优势比可能为3.76，这暗示全年制学校达标的发生比可能是非全年制学校的3.76倍。

然而，关键还需要查看其置信区间。优势比的置信区间可能从0.63到22.56左右。虽然优势比点估计值大于1，但其置信区间包含了1，这意味着在统计上我们没有足够的证据表明全年制学校达标的发生比显著更高。样本数据提供的证据强度不足以下此结论。

结果对比与总结

通过比较Stata和R的输出，我们可以确认：

模型系数估计值和优势比估计值在两个软件中基本一致。
标准误和置信区间有极细微的差异，源于软件内部算法的不同，但无实质影响。
对于 year_round 变量，两个软件均显示其效应在统计上不显著。

本节课中我们一起学习了在Stata中执行复杂调查设计下的逻辑回归分析的全过程。我们涵盖了数据加载、调查设计设定、变量重新编码、模型运行以及结果解释，特别是如何获取和解释优势比及其置信区间。最终，我们验证了使用Stata与R进行分析能得到数值上和定性上相同的信息，这符合统计分析的一致性预期。

164：记录链接的意义

在本节课中，我们将要学习记录链接的基本概念、动机及其在数据整合中的重要性。我们将从现实世界的例子出发，理解为什么需要链接不同来源的数据，并初步了解其面临的挑战。

课程概述

记录链接，或称数据匹配，是将来自不同数据源的、指向同一实体的记录进行识别和连接的过程。随着电子化数据的爆炸式增长，这项技术变得日益重要。

动机

毫无疑问，各行各业收集的数据越来越多。公共部门、私营部门、特定研究者或个人都在进行数据收集。例如，你去诊所时，信息不再手写记录，而是全部电子化捕获。我们的许多财务记录都以电子方式保存和处理，留下了数据痕迹。我们大多拥有会员卡或信用卡，每次使用都会产生交易数据。商店中用于处理食品购买的扫描仪也在产生数据。所有这些都被保存下来，并创建了独立的文件，理论上可以合并在一起以形成完整的图景。

社会保障记录等文本记录的数据出现时间更长一些。但这个领域真正的新事物是我们留下的所有社交媒体痕迹，如短信、博客等。虽然想象一个所有这些数据都被汇集起来使用的世界有些令人不安，但从研究者的角度来看，我们有很大的希望可以从这些数据中创造新的见解，甚至可能以更低的成本实现。

实际上，已经有一些非常成功的例子。例如，朱莉娅·莱恩曾大力推动的“纵向雇主-家庭动态”项目。该项目是美国人口普查局经济研究中心的一部分。在这个项目中，美国各州与人口普查局共享失业保险收入数据以及季度就业和工资普查数据。人口普查局自身又向该数据库添加了行政数据和调查数据。这项工作的使命是能够创建关于工人、雇主和工作的动态信息，并减少任何额外的数据收集负担。

试想一下，如果通过调查问卷向所有这些人询问他们的就业历史、收入、开始和结束工作的时间，以及这些收入是否产生了社会保障福利等，那将是一个巨大的负担。因此，分析已有的数据似乎是更实际的做法，但这并不像人们想象的那么普遍。事实上，许多国家目前正在努力解决如何解锁那些被孤立在不同机构中的数据的问题，例如美国各联邦州或地方机构的数据。

美国国家科学院的国家统计委员会刚刚发布了一份报告，探讨如何从整体上（不仅仅是技术层面）结合行政数据，涉及隐私问题、访问权限、谁应该有权这样做、何时可以进行，以及如何总体上更多地利用行政数据等。这是一个在全球范围内广泛讨论的议题。

希望通过这些努力，能够提高现有数据源的质量，或者减少从受访者那里收集这些数据的负担。如前所述，希望新的研究问题能够得到解答。

挑战

然而，这些努力面临着挑战。数据来自不同的来源，格式多种多样。记录的质量参差不齐。所有这些数据中没有统一的唯一标识符。不清楚哪些记录真正属于同一个人，以及我们如何找出这些匹配。此外，不同数据源之间的隐私法规也存在差异。当数据量非常大时，找到正确的匹配可能成本相当高昂。

总结

本节课中，我们一起学习了记录链接的核心动机：整合分散在不同来源中的数据以形成更完整的视图，并支持新的研究。我们也认识到这一过程面临数据格式不一、缺乏统一标识符、质量差异、隐私法规和计算成本等主要挑战。理解这些是进行有效记录链接的第一步。

165：记录链接入门指南 📚

在本节课中，我们将要学习一个在数据科学和调查研究中至关重要的技术——记录链接。我们将了解它的基本概念、应用场景以及在实际操作中可能遇到的挑战。

什么是记录链接？🔍

记录链接这个术语用于描述将同一实体（无论是个人还是其他对象）在一个或多个数据源中的信息进行组合的过程。其目标是找到存在于不同数据源或可能存在于同一数据源中的记录。

这项技术在其他学科中可能以不同名称出现。例如，它有时被称为数据匹配。计算机科学家有时称之为实体解析或对象识别。重复检测是另一个有时被使用的术语。在健康研究和其他应用领域的统计学中，记录链接是最常用的术语，这也是我们在此将使用的术语。

基本概念与理想模型 📊

记录链接的基本思想是：你有两个数据文件，A 和 B。你比较数据文件中的每条记录，然后决定是否可以链接它们。答案是“是”或“否”。这就是理想世界中的情况。

然而，现实情况往往并非如此简单，我们稍后将讨论其原因。

记录链接的应用场景

在讨论挑战之前，我们先看看为什么要链接这些记录。以下是几个主要的应用场景。

1. 识别并移除重复记录

如果只涉及一个数据集，即你比较 A 与 A，那么这项技术可以帮助你移除重复项。在进行统计分析（如计算平均值或百分位数）之前，你可能需要确保没有包含本应视为一个案例的多个重复记录。

以下是一个例子，展示了三个可能多次出现在记录中的人：

John A. Smith 和 J. H. Smith：地址相同，年龄相近，很可能是同一个人，可能是拼写或录入错误。
Javier Martinez 和 Javier Martines：西班牙语名字，可能被不熟悉发音的人拼错。
Jilln Jones 和 Jilln Brown：街道名和年龄组都不同，很可能不是同一个人。

这个例子已经让我们初步感受到了记录链接的挑战。

2. 合并两个数据文件

合并数据文件有几个原因：

纵向追踪：例如，你可能有一个调查数据，希望在一段时间后跟进，查看受访者是否健在，这时可以将其与死亡登记记录进行匹配。
合并调查面板波次：通常，你希望有一个不依赖于姓名和地址的唯一标识符来合并多次的调查数据。
验证调查答案：将个人提供的信息与其他数据源（如行政数据）进行比较，以评估调查数据的质量。
检测调查偏差：将调查数据与行政数据匹配，可以分析无应答者的特征，从而检测调查中的偏差。
插补或加权：链接的外部数据可以为调查数据的插补或加权提供额外信息。
补充联系信息：例如，从单独来源链接电话号码到调查样本。

这些应用在健康、犯罪、反恐等多个领域都非常普遍。

3. 识别两个数据文件的交集

这种应用通常在以下情况出现：

评估覆盖范围：比较抽样框与普查数据，查看谁未被覆盖。
估计总体规模：通过捕获-再捕获方法进行估计。
检查微数据文件的再识别风险。
发现登记数据中的漏报情况。

这些例子都是通过查看两个数据文件的交集来进行估计。

4. 更新数据文件

一个常见的例子是电话调查中的双框抽样。我们有一个固定电话框和一个手机号码框，它们需要被合并，但也需要去重，以确保每个受访者只对应一个电话号码（或明确知晓多个号码的情况），以便正确计算抽样概率。

总结

本节课中，我们一起学习了记录链接的基础知识。我们了解到，记录链接是将不同数据源中关于同一实体的信息进行组合的过程，它在数据清洗、合并、验证和更新等多个环节发挥着关键作用。尽管其基本思想是直接比较和匹配记录，但在实际操作中，由于数据错误、格式不一致和标识符缺失等问题，这个过程会变得复杂。在接下来的课程中，我们将深入探讨记录链接的具体方法和面临的挑战。

166：记录链接的挑战 🧩

在本节课中，我们将要学习记录链接过程中面临的主要挑战。记录链接是指将来自不同数据源的记录进行匹配和合并的过程。无论数据规模大小，这一过程都存在一些固有的困难。

缺乏唯一标识符 🔑

无论你的记录集有多大，在链接来自多个数据源的记录时，我们都会面临一些传统挑战。其中一大挑战是缺乏唯一标识符。

以下是缺乏唯一标识符的具体表现：

以人名“Julia Laine”为例，在互联网上搜索时，可能会出现多个同名但不同的人。
同样，公司名如“Summit Consulting”也可能对应不同地区的不同公司。
不同文件之间缺乏唯一标识符，对于任何想要确保正确匹配同一实体的操作者来说，都是一个真正的挑战。

数据质量问题 🧹

另一个挑战通常被称为“脏数据”。数据可能因为各种原因而变得混乱和“脏”。

以下是导致数据质量问题的常见原因：

录入错误：例如拼写错误。
记录变更：例如，婚姻状况随时间改变，或某人搬家导致不同记录中的地址不同。
数据过时：记录的值可能已经失效。
数据缺失：某些字段可能为空，我们希望从其他数据库中补充。
编码方案不同：在处理日期时尤其成问题，不同数据源可能使用不同的日期格式（如 MM/DD/YYYY 与 DD-MM-YYYY）。
名称变体：例如，“John Smith”可能被写成“john smith”；“Charles”可能缩写为“Chuck”；“William”可能被称为“Bill”。
地址缩写：街道名称可能有多种记录方式，如“Road”缩写为“Rd”，“Drive”缩写为“Dr”。

隐私与数据敏感性 🔒

我们意识到的另一个常见挑战是隐私问题以及待链接数据的性质。

根据欧洲晴雨表的调查图表显示，很大比例的受访者认为财务信息和医疗记录属于敏感信息。在许多国家，链接此类数据需要获得知情同意，并且有专门的法规手册进行规范。

大数据环境下的新挑战 ⚡

数据的体量会影响所有上述问题。在大数据背景下，出现了一些新的挑战。

以下是大数据环境下记录链接面临的新挑战：

可扩展性：对记录进行两两比较的朴素方法会因数据量巨大而“爆炸”，计算时间过长。我们需要转向更高效的方法，相关技术仍需研究。
复杂关系：有时数据中存在网络和复杂关系，在匹配记录时可能需要考虑这些因素。
缺乏真实实体标签：最大的挑战之一是我们通常不知道真正的实体是什么，缺乏良好的训练数据集供算法学习正确匹配，这也是该领域目前有许多新研究的原因。

扩展的记录链接流程 🔄

因此，正如Bennder及其同事所描述的，扩展的记录链接流程并非简单地直接比较数据文件A和B，而是在比较之前，对两个文件进行大量的预处理。

预处理流程通常包括以下步骤：

预处理：包括解析个人姓名、纠正拼写错误等。
缩减搜索空间（分块）：例如，如果知道某人在芝加哥，可以将搜索范围限制在芝加哥地区，这被称为“分块”。
比较与分类：在较小的集合内进行比较，然后将它们分类为“真匹配”、“非匹配”或“潜在匹配”。

预处理的重要性 ⏳

预处理的重要性再怎么强调都不为过。根据Jill在2001年的观点，在我们所做的许多分析中，大约75%的工作量在于数据清理和解析步骤，约20%用于检查匹配过程是否正确，只有大约5%用于实际的链接工作。

关于标识符的注意事项 📝

最后一点关于标识符的说明：通常我们有姓名、地址、出生日期等标识符。在不同的记录中，这些标识符可能不同，例如来自多个来源时，可能会有变化、不同拼写等。即使你决定使用所有记录共有的核心部分，也不要丢弃这些原始标识符，因为如果添加额外的数据源，保留这些原始标识符可能有助于后续链接到数据集中不同的变体。

任何给定单元的变体都可能出现，几乎无处不在。正如所说，保留它们是有帮助的。

总结与展望 📈

总而言之，正因为上述原因，Kristen提出的流程使这个过程更加复杂。该流程允许几个反馈循环，查看匹配、非匹配和潜在匹配的结果，加入人工审查，然后看看是否能改进后续流程。如何得到匹配、非匹配和潜在匹配的结果，我们将在下一节中讨论。

本节课中，我们一起学习了记录链接面临的多重挑战，包括缺乏唯一标识符、数据质量问题、隐私顾虑以及大数据环境下的可扩展性等新问题。我们还了解了扩展的记录链接流程中预处理的关键作用，以及保留原始标识符的重要性。理解这些挑战是设计有效、准确的记录链接方法的第一步。

167：关键技术 🔑

在本节课中，我们将要学习几种关键的记录链接技术。记录链接是将不同数据集中代表同一实体的记录匹配起来的过程。我们将详细介绍三种主要方法：确定性链接、概率性链接以及计算机科学方法。理解这些技术对于合并和分析来自不同来源的数据至关重要。

确定性规则链接 🔗

上一节我们介绍了记录链接的基本概念，本节中我们来看看第一种具体方法：确定性规则链接。

这是一种用于匹配不同数据集的简单方法。其目标是使用一个（或多个）关键的唯一标识符进行精确匹配。如果使用多个标识符，则它们通常被研究者赋予同等权重。

以下是该方法的一个示例，其中使用社会保障号码进行匹配：

数据集A	数据集B	匹配结果
记录1: SSN=123	记录1: SSN=123	匹配
记录2: SSN=456	记录2: SSN=456	匹配
记录3: SSN=789	记录3: SSN=NULL	无法匹配

可以看到，当关键标识符（如社会保障号码）在所有数据集中都完整存在时，此方法效果良好。一旦标识符缺失，就必须转向使用次优变量（如姓名），但姓名可能存在拼写差异等问题，这使得确定性链接变得困难。

概率性记录链接 🎲

由于确定性链接的局限性，发展出了其他技术。概率性链接的基本思想源于Fellegi和Sunter在20世纪60年代提出的理论。

在这种方法中，可以使用广泛的潜在标识符进行记录链接。其核心是为每个匹配变量计算权重，权重基于该变量在匹配与非匹配情况下一致的概率估计。

以下是该方法涉及的两个关键概率：

m概率：在记录对是真实匹配的条件下，某个字段一致的概率。公式表示为：P(字段一致 | 真实匹配)。
u概率：在记录对不是真实匹配的条件下，某个字段一致的概率。公式表示为：P(字段一致 | 非真实匹配)。

例如，对于“出生月份”字段，如果两个记录不是真实匹配，它们月份一致的概率（u概率）大约是1/12。

该方法的工作流程如下：

假设有两个数据集A和B，目标是找到真实匹配的记录对。
使用一个变量向量进行比较，对所有可能的记录对进行两两比较。
应用决策规则：计算似然比 P(变量向量一致 | 真实匹配) / P(变量向量一致 | 非真实匹配)。
如果该比值超过设定的阈值，则视为匹配；否则视为不匹配。

该方法的一个关键假设是条件独立性，即给定记录对是真实匹配，各字段的一致性是相互独立的。这主要是为了数学上的便利，现实中通常不成立。

概率链接的实施与挑战 ⚙️

了解了概率链接的基本原理后，我们来看看它的具体实施步骤和面临的挑战。

以下是实施概率性记录链接的典型步骤：

比较与赋分：比较每个匹配变量，并根据匹配程度赋予权重（分数）。
频率分析：分析数据值的频率。不常见的值一致时，能提供更强的链接证据。
计算总分：为每个记录对计算所有字段的分数总和。
排序与判定：根据总分对记录对进行排序，并确定匹配项。

然而，对所有可能的记录对进行比较（即“两两比较”）计算量巨大。例如，如果数据集A有100条记录，B有1000条记录，则需要比较10万次。为了解决这个“充分性问题”，引入了分块技术。

分块类似于抽样中的分层思想。其基本做法是，仅对哈希到相同块值（例如，属于同一城市或同一年出生）的记录对进行比较。这样可以大幅减少需要比较的记录对数量，提高计算效率。还可以进行扩展，例如在多个属性上分块，或对有序属性进行排序。

计算机科学方法 🤖

记录链接的任务——寻找相似的案例或良好的匹配——可能会让你联想到其他技术，如聚类或预测建模。确实，在这个领域，计算机科学提供了许多先进方法。

许多计算机科学方法基于机器学习、数据挖掘和数据库技术。与传统的概率方法相比，机器学习方法的一个关键优势是，如果存在训练数据集（即已知真实匹配情况的数据），它可以自动学习并选择更好的特征（变量）用于模型，从而解决“应该使用哪些变量”的建模问题。

下图简要对比了两种思路的流程：

概率性方法：源文件 -> 分块 -> 相似性计算 -> 匹配决策（基于Fellegi-Sunter模型）。
机器学习方法：源文件 -> 分块 -> 使用训练数据学习模型 -> 匹配决策。

这使得整个过程在分块的基础上更加高效。

总结与软件工具 📚

本节课中我们一起学习了三种关键的记录链接技术。

首先，确定性匹配是一种简单直接的方法，依赖于精确的关键标识符，但在标识符缺失时效果有限。

其次，概率性记录链接（以Fellegi和Sunter的理论为代表）能够利用多个属性进行链接，并为属性计算匹配权重，通过似然比和阈值做出匹配决策。

最后，计算机科学方法（包括许多基于机器学习的技术）通过利用训练数据，可以自动化特征选择和模型优化，提供了更强大的链接能力。

最后，有一些免费软件工具可供你实践这些技术，例如 Link Plus、Choicemaker、FEBRL 和 Merge Toolbox。它们都提供了良好的用户界面，尽管各有某些限制，但我们强烈建议你根据需求尝试使用。

168：伦理问题、数据链接与知情同意

在本节课中，我们将探讨数据收集与分析中的核心伦理议题，特别是隐私、保密以及数据链接带来的挑战。理解这些概念对于负责任地进行研究至关重要。

隐私与保密：核心概念

上一节我们介绍了本模块的主题，本节中我们来看看两个基础但至关重要的概念：隐私与保密。

隐私指的是“独处的权利”。这是一个关于个人选择性地分享信息，而非公开所有信息的能力。隐私意味着个人可以决定他人应该了解关于自己的哪些内容。

保密则意味着对信息访问和披露施加经授权的限制。这是研究者为保护参与者隐私和专有信息而做出的承诺。当您参与调查时，研究者通常会提供一份保密承诺，保证您的数据将得到安全保护。请注意，保密数据并非匿名数据；理论上，仍有可能识别出您的身份和个人信息，但研究者的目标是运用技术手段确保其安全。

数据链接环节之所以要讨论这些概念，是因为一旦开始将不同数据集链接在一起，原有的隐私和保密承诺就可能面临风险。我们稍后会详细讨论这一点。

平衡风险与效用

现在，思考一下这个领域始终存在的核心挑战：在提供数据访问所带来的风险与其关联的效用之间取得平衡。

以下是需要权衡的两个方面：

数据效用：我能用这些数据做什么？如何分析这些数据？
个人风险：数据的使用和分析会给个体带来什么风险？

总结

本节课中，我们一起学习了隐私与保密的定义及其区别。我们了解到，隐私是个人控制自身信息分享的权利，而保密是研究者为保护这些信息所做的承诺。最重要的是，我们认识到在进行数据链接时，必须在数据的研究价值与保护参与者隐私的风险之间谨慎地寻求平衡。

169：链接同意与同意偏倚 🔗

在本节课中，我们将学习数据链接中的一个关键环节：获取受访者的链接同意，并探讨因同意率差异可能导致的同意偏倚问题。我们将了解两种主要的同意获取方式，分析影响同意率的因素，并理解同意偏倚对数据分析结果的影响。

链接同意的法律要求与目的

上一节我们介绍了数据链接的基本概念，本节中我们来看看获取链接同意的具体过程。在德国等国家，法律通常要求在将任何数据源进行链接或合并之前，必须征得受访者的同意。

这个同意过程的目的在于确保受访者了解以下信息：

将被链接的数据源。
链接数据的预期用途。
数据链接可能带来的收益与风险。

同时，还必须确保数据将被保密，并且参与数据收集的请求本质上是完全自愿的。

两种主要的同意获取程序

在介绍了同意过程的目的后，我们来看看实践中获取同意的两种主要方式。

以下是两种常见的同意获取程序：

主动同意程序：这是一种“选择加入”的方式。受访者需要采取明确行动（如签署文件或在网页上点击按钮）来表示同意。在调查中，这通常在访谈过程中的某个环节进行。
被动同意程序：这是一种“选择退出”的方式。默认情况下，受访者被视为同意参与链接。如果受访者不希望被链接，则必须主动提出反对。

大多数调查采用主动同意程序。关于哪种程序能确保受访者更“知情”，存在一些争议。

链接同意率的变化与趋势

了解了获取同意的方式后，我们来看看实际研究中的同意率情况。链接同意率在不同研究间差异很大。

根据文献综述，同意率的范围很广，例如在40%到100%之间，或在24%到90%之间。这种差异部分取决于调查主题和发起方。

有证据表明，在美国，链接同意率呈下降趋势。例如：

国家健康访谈调查（1993-2005年）：同意将数据链接到医疗记录的比率从85%降至50%。
收入与项目参与调查：同意率从88%降至65%。
现时人口调查：同意率从90%降至76%。

影响同意与否的因素

既然同意率存在差异和下降趋势，一个自然的问题是：为什么有些人同意链接，而有些人拒绝？

以下是影响受访者决定的一些关键因素：

同意原因：希望帮助研究、信任调查机构、清楚了解研究目的。
拒绝原因：对共享机密数据的担忧，以及其他负面考虑。

链接不同意带来的后果

上一节我们探讨了人们同意或拒绝的原因，本节中我们重点分析链接不同意对数据分析造成的实际后果。这主要体现为两个方面：

方差增加：同意链接的人数减少，导致最终可用于分析的有效样本量减少。样本量越小，估计值的方差就越大，这是一个显著问题。
偏倚引入：同意链接的受访者可能与不同意者在系统特征上存在差异。因此，当你分析链接后的行政与调查数据时，分析结果可能会产生原本不存在的偏倚。

作为此类数据的收集者或分析者，需要检查同意率、评估对方差的影响，并思考偏倚可能产生于何处及其是否构成问题。

同意偏倚的概念路径

在文献中，可以找到此类偏倚的实例。以下是一个展示链接过程中可能出现的各种偏倚的概念路径：

理想情况下，我们从抽样框（有时本身就是行政数据）开始。其中一部分形成样本。样本可划分为响应者和无响应者。无响应会减少样本量（影响方差），并可能因响应者与非响应者存在系统差异而引入偏倚。

同样的情况也发生在响应者群体内部。你可以将响应者划分为同意链接者和不同意链接者。如果不同意链接的群体与其他人在系统上存在差异，那么链接后的数据就会产生偏倚。

即使在技术层面也可能存在问题：受访者同意了链接，但如果链接需要提供社保号码等关键信息，即使在同意者中，也可能出现部分数据能成功链接、部分不能链接的情况。这同样会对方差和偏倚产生影响。

因此，即使你不是数据的分析者，或者没有现成数据来进行此类研究，作为此类数据的使用者，也应当意识到这些潜在问题。

总结

本节课中，我们一起学习了数据链接中的同意获取与同意偏倚。我们了解了主动同意与被动同意两种程序，看到了链接同意率的变化趋势及其影响因素。最重要的是，我们认识到链接不同意不仅会减少样本量、增加方差，更可能因同意者与非同意者的系统差异而引入偏倚，最终影响数据分析结果的准确性与代表性。在使用链接数据时，必须对这些潜在问题保持警惕。

170：同意相关因素 📊

在本节课中，我们将探讨调查中受访者“同意”行为的相关因素。理解哪些因素会影响受访者同意参与调查或同意数据链接，对于评估数据质量和潜在偏差至关重要。

概述

我们之前讨论了受访者同意率存在差异的现象。本节将深入分析可能与同意行为相关的因素，包括受访者特征和访问员特征，并探讨这些因素如何导致调查估计产生偏差。

受访者特征与同意率

多项研究试图找出与受访者同意行为相关的特征。以下是部分研究中观察到的变量及其对同意率的影响方向。

性别：在Nancy Bates（2005）的研究中，女性的同意率较低。
年龄：研究发现，同意率与年龄呈负相关。
教育与收入：在Bates的研究中，同意率与教育水平和收入也呈负相关。

然而，不同研究的结果可能不一致。例如，Jenkins和Young的更早研究显示了教育水平的相反效应。关于净资产等变量，不同研究甚至可能报告完全相反的方向。这表明，同意行为的相关因素可能因调查的具体类型、内容和背景而异。

访问员特征的影响

除了受访者自身特征，访问员的特征也会显著影响同意率。

访问员经验：经验不足的访问员往往获得较低的同意率。
访问员态度：如果访问员本人愿意分享数据并支持数据链接，那么由她访问的受访者同意率会更高。

这个发现具有重要意义。如果你的研究依赖于数据链接，那么确保访问员经过充分培训并完全理解和支持这一概念，就显得尤为关键。

同意行为导致的估计偏差

上一节我们介绍了可能影响同意率的因素，本节我们来看看这种选择机制如何导致最终调查估计产生偏差。Ting Yang、Scott Friter和John Elting利用美国劳工统计局的“消费者支出季度访问调查”数据，进行了一项有趣的分析。

该调查的同意率约为80%。他们比较了“全体受访者均值”与“同意数据链接的受访者子集均值”之间的差异。以下是针对五个变量的分析结果：

家庭收入：收入较低的群体同意率较低。因此，如果仅分析同意数据链接的子集，得到的平均家庭收入会高于全体受访者的平均值。
车辆成本、财产税、财产价值、租金价值：这些变量也观察到了同意子集与全体样本之间的均值差异。

下表中的数据展示了这种差异。第三列（差异）中标为粗体的值表示差异具有统计显著性。

解读上表：以“家庭收入”为例，“同意者均值”（Consenting Mean）高于“受访者均值”（Respondent Mean），且差异显著（第三列为粗体）。这证实了低收入群体同意率更低，导致仅使用同意者数据会高估总体平均收入。

虽然表中显示的差异幅度并非总是巨大，但部分差异确实显著。这表明，非随机的同意行为可能引入系统性偏差，影响基于同意者子集得出的结论对总体的代表性。

总结

本节课中，我们一起学习了影响调查同意行为的相关因素。我们了解到，受访者的人口统计学特征（如性别、年龄、收入）和访问员的特征与态度都可能影响同意率。更重要的是，这种非随机的同意机制可能导致调查估计产生显著性偏差，例如高估整体收入水平。因此，在设计和分析调查时，必须考虑同意率的潜在偏差，并采取相应措施（如精心培训访问员、进行加权调整）来改善数据质量。

171：行政数据估计中的偏倚

在本节课中，我们将学习一项关于行政数据链接研究中偏倚的具体分析。我们将探讨一项针对德国福利领取者的研究，该研究同时评估了无应答偏倚、链接同意偏倚和测量偏倚。

研究背景与数据

上一节我们讨论了行政数据链接中的潜在偏倚类型。本节中，我们来看看一项由Josa和我本人利用德国PA研究数据进行的实证分析。这项研究是一项针对福利领取者的调查。

偏倚的分解与评估

以下是该研究设计的独特之处，它使我们能够分解并量化多种偏倚：

无应答偏倚评估：我们能够考察调查中未同意链接者的汇总数值。
链接同意偏倚评估：我们能够将“是否参与调查”和“是否同意数据链接”这两个指标变量链接回初始抽样框，从而获得对无应答偏倚和链接同意偏倚的良好估计。
测量偏倚评估：对于参与了调查的受访者，我们还能考察测量偏倚，因为我们可以比较他们在调查中报告的值与行政数据中关于他们的记录值。

研究结果分析

现在，让我们看看这项研究的具体发现。结果在某些方面令人警醒，但也包含一些积极的信号。

测量偏倚：当你查看测量偏倚时，结果有些令人沮丧。这意味着调查回答与行政记录之间存在显著差异。
无应答偏倚：实际上，无应答偏倚并不太大。
链接同意偏倚：在这项特定研究中，链接同意偏倚非常小。这相当不错，意味着我们在此情境下无需过度担忧链接同意带来的偏倚。

重要提示：但这仅是本项研究中的情况，并不意味着在所有研究中都是如此。

延伸发现与启示

对我们而言，有趣的是，基于这些变量以及Jo Saaka和IAB另一位同事的另一项研究，他们发现更多证据表明，在其他同类调查中，链接同意偏倚总体上较小，且通常小于无应答偏倚。

因此，聚焦于测量误差，并可能回顾我们专项课程中关于问卷设计的模块，在这里可能非常有价值。

本节总结

本节课中，我们一起学习了一项具体研究，它展示了如何同时评估行政数据链接中的无应答偏倚、链接同意偏倚和测量偏倚。关键结论是：虽然测量偏倚可能是一个主要问题，但链接同意偏倚在某些情况下可能相对较小。然而，研究者必须针对每个具体研究进行评估，不能将单一研究的发现普遍化。

172：优化链接同意机制 📊

在本节课中，我们将学习如何通过优化提问方式、时机和措辞来显著提高受访者同意链接其调查数据与其他行政或注册数据的比率。链接同意是获取更丰富、更准确研究数据的关键步骤。

引言与概述

上一节我们介绍了链接数据的重要性与基本概念。本节中，我们来看看如何通过一系列实验验证的方法，优化获取链接同意的机制。核心策略包括调整问题的放置位置、优化措辞方式以及采用损失框架进行提问。

1. 问题放置位置的优化 🗂️

传统上，链接同意问题通常被放在访谈的末尾。其假设是，经过一段时间的交流，访员与受访者之间建立了良好的报告关系，受访者更可能在调查结束时同意该请求。然而，实证数据并不一定支持这一假设。

我们进行了一系列实验，通过两种不同方式改变问题的放置位置：一是在与主题相关的项目上下文中提问，二是在访谈开始时提问。研究发现，在调查早期且贴近相关主题时提问，可以显著提高同意率。

以下是来自德国一项机构调查的示例数据，该调查共有约4222个有效回复。实验设置了三种条件：

开始：在调查开始时请求链接同意。
中间：在调查中间请求链接同意。
结尾：在调查结束时请求链接同意。

结果显示，同意将数据链接到联邦就业机构保存的就业登记信息的比率依次下降。结论很明确：应尽早（在调查初期）提出链接同意请求。

2. 问题措辞的优化 ✍️

调查在设计链接同意问题时有一定的灵活性。最糟糕的做法可能是将问题完全留给访员自由发挥，因为如前所述，访员自身对此话题的态度很可能会影响他们获取同意的效果。

因此，为同意请求准备标准化的脚本通常是有益的。接下来的问题是：如何设计这个脚本？许多人可能会本能地强调同意的好处（收益框架），即为什么受访者应该同意这个请求。

然而，理论实际上可能预测，强调不同意的负面后果（损失框架）会更有效。我们观察到，在电话调查中，使用强调好处的措辞对提高同意率并无帮助；在网络调查中，强调节省时间的论点有轻微正面效果，但并不显著。

这里涉及的理论是卡尼曼和特沃斯基提出的前景理论（他们因此获得了诺贝尔奖）。该理论提出了收益框架和损失框架的概念，并预测人们通常是风险厌恶型的，即我们更倾向于避免损失，而非追求收益。

这意味着，如果使用如下的收益框架：

“如果您能同意链接，您目前提供的信息对我们来说会更有价值。”

首先，如果受访者没有足够信息来评估风险，他们宁愿放弃可能的收益（何况这个收益还是研究机构的，而非他们个人的），也不愿冒险。而在损失框架下：

“如果您不同意链接，您目前提供的信息对我们研究机构的价值将大打折扣。”

其逻辑在于，受访者已经投入了时间，他们希望自己提供的信息是有用的。

以下是美国一项电话调查中实施此方法的结果示例。可以看到，使用损失框架与收益框架获取的同意率之间存在显著差异（约10个百分点的差距）。尽管图表因基线不为零而放大了视觉效果，但差异依然明显。这项实验中，问题在调查中的放置位置是相同的。

在德国一项更近期的研究中，我们考察了放置位置与措辞框架之间的交互作用。在电话调查中，我们没有看到显著的交互作用，但再次观察到了在调查开始时提问比在结束时提问同意率高出约10个百分点的强烈差异。

然而，在网络调查中出现了有趣的交互作用：损失框架获得的同意率高于收益框架。值得注意的是，在调查开始时测试收益与损失框架的差异意义不大，因为此时受访者尚未投入任何回答。

但为了实验的完整性，我们仍将此条件纳入了研究。

总结

本节课中，我们一起学习了优化链接同意机制的三个关键策略：

尽早提问：在调查初期、贴近相关主题时提出链接同意请求，同意率最高。
使用损失框架：在措辞上，强调“不同意链接会降低已提供数据的价值”（损失框架），比强调“同意链接能增加数据价值”（收益框架）更有效，尤其是在受访者已投入时间后。
注意模式差异：上述策略的效果在电话调查和网络调查中可能有所不同，需要根据具体调查模式进行测试和调整。

通过应用这些基于实证研究的优化方法，您可以更有效地获取受访者的链接同意，从而为后续的数据分析奠定更丰富、更可靠的基础。

posted @ 2026-03-26 13:08 布客飞龙IV 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

密西根大学调查数据收集和分析笔记-全-

密西根大学调查数据收集和分析笔记（全）

001：课程定位说明 📚

002：调查误差导论

总调查误差框架

测量误差

代表性误差

核心概念与总结

003：变量误差与偏倚 📊

004：总调查误差框架 🎯

总调查误差框架概述

误差的主要类别

非观测误差

观测误差

数据处理误差

调查设计中的权衡

成功应用TSE框架的条件

误差的来源与模式选择的影响

总结与下节预告

005：方法、社调问卷设计、抽样、缺失数据、分析：4_1.3.1 调查模式定义 📚

什么是调查模式？🔍

模式的组合与分类 📊

常见模式与缩写 📝

新兴模式与未来展望 🚀

模式选择与设计考量 ⚖️

数据收集方法或模式的两种路径 🛤️

受访者模式选择 🤔

006：受访者模式选择 📊

模式选择对回答率的影响

模式选择对数据质量的影响

模式偏好的影响

总结

007：混合模式设计

📘 概述

🎯 混合模式设计的目标

🔄 不同研究阶段的模式混合

预通知与数据收集的模式混合

📊 数据收集阶段的混合模式设计

1. 并行混合模式设计

2. 序贯混合模式设计

3. 问卷内模式切换设计

4. 纵向混合模式设计

5. 平行（独立）混合模式设计

🏁 总结

008：并行混合模式设计 📊

并行混合模式设计概述

模式偏好的作用与测量

模式选择的影响

总结

009：方法、社调问卷设计、抽样、缺失数据、分析：p09 8_1.4.3 序贯追踪混合模式 📞➡️📧

010：方法、社调问卷设计、抽样、缺失数据、分析

课程概述

章节 9：混合模式设计

9_1.4.4 密歇根大学David Weir教授访谈：混合模式设计 👨‍🏫

课程总结

011：应答率 📊

课程概述

应答率与调查模式

理解调查数据文件

应答率作为质量指标

AAPOR标准应答率

AAPOR应答率1 (RR1)

AAPOR应答率2 (RR2)

总结

012：无应答误差 📊

无应答误差的构成

误差的两个驱动因素

无应答误差与应答率的区别

应答率与误差的非必然关联

何时会产生偏差？

调查方式的影响与一个实例

本节总结

013：方法、社调问卷设计、抽样、缺失数据、分析：2.1.1 调查模式：访员与自填式CASI-ACASI 📊

常用调查模式回顾 🔄

CASI如何影响敏感问题回答 📈

自动化自填式 vs. 纸质自填式 📄

ACASI的优势与局限 🎧

014：ACASI系统深入探究 🎧

概述