了解多阶段调查数据分析中权重的使用
了解多阶段调查数据分析中权重的使用
抽象
Ciol MA,Hoffman JM,Dudgeon BJ,Shumway-Cook A,Yorkston KM,ChanL。了解在多阶段调查数据分析中权重的使用。
大型国家调查是检查各种重要的康复相关问题的有力工具,并且是目前研究随时间推移残疾趋势的唯一可行方法。因为从整个美国抽取简单的随机样本是不切实际的,所以国家调查(例如Medicare当前受益人调查(MCBS))选择人口子组的随机样本。因此,受访者被纳入调查的可能性可能不相等,因此在将结果推广到整个美国之前,必须在分析中使用权重。MCBS之类的调查是康复医学的丰富数据来源,可以预料将使用这些数据源进行更多的研究。这些数据的统计分析应说明数据收集中使用的采样方案。我们回顾了多阶段样本设计,权重计算及其在数据分析中的使用所涉及的原则,重点是它们在总体价值估计中的重要性。我们的目标是使用这种方法来帮助读者理解和解释研究论文的结果。提供了使用MCBS数据的示例,以阐明本文中提出的概念。
大型国家调查是强大的工具,可用来检查各种与康复相关的重要问题,并且是目前研究长时间残疾趋势的唯一方法。由于从整个美国抽取一个简单的随机样本并不总是可行的(进行亲自调查的旅行费用是高额的),因此,诸如Medicare当前受益人调查(MCBS)1等全国性调查旨在选择人口子群的随机样本。使用这些抽样方案(分层或多阶段)进行的调查在文献中很普遍,研究范围从与酒精相关的非致命伤害,2到青少年体重变化,3诊断初级护理中的严重抑郁症。使用多阶段抽样方案的4项著名的国家调查包括“国家健康访问调查”(NHIS),“ 5国家健康和营养检查调查”(NHANES),6和MCBS。这些调查可以只进行一次(横断面调查),也可以在一段时间内跟踪参与者(纵向调查)。
在多阶段抽样方案中,将不平等的选择概率分配给总体中的每个人。因此,从这些样本进行的数据分析必须考虑选择一个人的可能性(以抽样权重的形式),否则结果可能会得出不适当的结论。在2002年1月1日至2005年2月10日之间对PubMed数据库进行的搜索中,有1797篇文章的标题或摘要引用了NHANES,813篇引用了NHIS,57篇引用了MCBS,表明正在进行大量研究。通过使用多阶段调查。在使用MCBS数据的57篇文章中,有16篇与康复医学有关,但只有7篇在分析中使用了抽样权重。所以,
鉴于在MCBS中收集的有关健康状况和残疾的数据非常丰富,康复医学领域的更多研究可能将依赖MCBS或其他类似调查。本文回顾了涉及分层和多阶段方案的抽样技术的基本原理,并以MCBS为例,说明了权重的推导和重要性。讨论了与加权分析的应用有关的问题。
采样方案的基本原理
在本节中,我们回顾了调查抽样的一些基本定义和原则。在专业书籍中可以找到对调查抽样的更多数学处理。7, 8每个调查计划都从定义目标人群(即我们希望将结果推广到的人群)开始。但是,该人群可能无法访问。我们可以从中抽样的总体是调查总体,这是可以将结果进行概括的总体。通常,我们有兴趣通过使用从样本获得的信息来估算目标人口值。例如,我们可能有兴趣在美国65岁以上的所有人(我们的目标人群)中找到行动不便人士的比例。要从该人群中选择一个样本,我们需要有目标人群中每个主题的列表。因为这样的列表可能很难获得,所以我们可以使用Medicare人口。某年 可以从Medicare记录中确定Medicare人口,并将其作为我们的调查人口。样本中观察到的任何行动不便的受试者比例是调查人群中真实比例的估计值。2002年,医疗保险人口约占95%年龄在65岁及以上的美国人口中有 9例,因此,可以合理地假设结果可以推广到64岁以上的整个美国人口。在其他情况下,研究人员必须论证是否可以将调查人群的估算值推广到目标人群,并且在解释结果时必须谨慎。
样本的估计值可能受到两种类型的误差的影响:抽样误差与样本从调查人群中的选择方式有关,非抽样误差与测量误差有关,取决于仪器以及用于数据收集的协议。抽样方案的主要目标是在估计总体值时最大程度地减少抽样误差。
采样方案有2个组成部分。选择过程定义了如何从总体中选择主题,从而产生了选择某个主题的可能性。估计过程是一种公式,通过该公式,可以将选择过程考虑在内,从而估算出总体价值。从概念上讲,最简单的选择过程是简单随机样本(SRS),它使总体中的每个主题都具有相同的被选择概率。例如,如果一个人有兴趣估计人口中残疾受试者的比例,并且使用的采样过程是SRS,则适当的估计过程就是计算采样比例。
进行调查时,SRS并不总是很方便。例如,在一项全国调查中,很难轻易找到许多人口。此外,与资助和及时进行此类调查有关的问题可能会排除SRS的设计。在更复杂的情况下,必须修改选择和估计过程,以最大程度地减少采样误差并最大化调查的效率。如果可以将总体归类为在某些特征上可能不同的组,则可以从每个组中选择一个样本(分层样本),并计算每个层的总体值估计。但是,如果需要估算整个人群的价值,
为了说明这一点,请考虑由36个人组成的人群,他们的FIM仪器评分(FIM是一项评估运动和认知功能中日常生活[ADL]基本活动的量度)如下:19、20、21, 22、23、25、27、28、29、29、30、30、31、32、33、35、35、36、37、45、46、49、53、55、56、57、58、60, 65、66、75、76、78、78、82、125。
整个总体的真实均值(所有值的总和除以36)为46.28。但是,假设我们只能观察其中12个人的FIM,并且通过使用SRS,我们获得以下样本:21、27、28、29、29、30、35、36、37、45、60 ,65。
SRS对总体平均值的估计是样本平均值,在这种情况下为36.8,比真实平均值小,这是因为FIM较高端的受试者在样本中的代表性不足。另一个SRS可能包括人口中最高的FIM值,例如以下样本:28、29、31、58、60、65、75、76、78、78、82、125,我们将得出样本均值65.4,比真实均值大得多。在这里分层可能会有所帮助。如果我们根据FIM的大小将人口分为4个层次(表1,第1至3栏),然后计算加权平均值(将每个阶层的平均值乘以它在总体中所代表的比例[第4列]),就可以得出真实的总体平均值(第5-6列)。通过使用相同的思想,如果我们在每个层次中采用SRS(表1中的粗体值表示),并计算加权样本均值,则得出46.43作为总体均值的估计值(第7-8列),即更接近真实人口的均值。本质上,权重占每个阶层代表的总体比例,反映了阶层中的某个元素被选择包含在样本中的概率。可以证明,当抽样过程是分层设计时,加权样本均值是总体均值的良好估计(从统计意义上来说)。8
| 层号 | FIM间隔 | 地层元素⁎ | 地层重量(w ^)† † | 全部人口 | 仅样品 | ||
|---|---|---|---|---|---|---|---|
| 均值 | 层均值× w | 层均值 | 层均值× w | ||||
| 1个 | 18–44 | 19,20,21,22,23,25,27,28,29,29,30,30,31,32,33,35,35,36,37 | 19/36 = .5278 | 28.53 | 15.06 | 28.83 | 15.22 |
| 2 | 45–74 | 45,46,49,53,55,56,57,58,60,65,66 | 11/36 = .3056 | 55.45 | 16.94 | 56.00 | 17.11 |
| 3 | 75–99 | 75,76,78,78,82 | 5/36 = .1389 | 77.80 | 10.81 | 76.50 | 10.63 |
| 4 | 100–126 | 125 | 1/36 = .0278 | 125.00 | 3.47 | 125.00 | 3.47 |
| 和 | 1.0 | 46.28 | 46.43 | ||||
可以通过简单的代数运算将先前给出的权重转换为层大小与层样本大小的比率,并且加权样本平均值可以以略有不同的方式计算。例如,第1层有19个元素,其中有6个元素被选择用于样本。因此,每个采样元素的权重为19/6 = 3.17。对于第2层,权重为11/3 = 3.67(该层中有11个元素,其中有3个元素被采样),依此类推。在表2中,我们显示了样本中每个元素的权重。最后一栏显示权重乘以采样元素。例如,第一个元素为22,其权重为3.17,乘积为69.67。加权平均值是所有产品的总和除以所有权重的总和(即1671.33 / 36 = 46.43),该值与表1中的计算值相同。
| 层号 | FIM间隔 | FIM for SampledSubjects | 权重= StratumSize / StratumSample大小 | 重量×实测值 |
|---|---|---|---|---|
| 1个 | 18–44 | 22 | 3.17 | 69.67 |
| 23 | 3.17 | 72.83 | ||
| 30 | 3.17 | 95.00 | ||
| 31 | 3.17 | 98.17 | ||
| 32 | 3.17 | 101.33 | ||
| 35 | 3.17 | 110.83 | ||
| 2 | 45–74 | 46 | 3.67 | 168.67 |
| 56 | 3.67 | 205.33 | ||
| 66 | 3.67 | 242.00 | ||
| 3 | 75–99 | 75 | 2.50 | 187.50 |
| 78 | 2.50 | 195.00 | ||
| 4 | 100–126 | 125 | 1.00 | 125.00 |
| 和 | 36.00 | 1671.33 |
权重是样本中每个元素表示的层中元素的数量。例如,在第2层中,每个抽样元素代表总体中的3.67个元素,而在第4层中,抽样元素代表1个元素(即整个层次)。权重越大,地层内采样元素的比例越小。对这些权重的解释可能导致对未加权和加权样本量的不当报告。例如,在前面的示例中,可以将未加权的样本大小报告为12,将加权的样本大小报告为36。实际上,未加权的样本大小是唯一选择的样本的大小。加权样本数量无非是样本所代表的总体数量,这是已知的,或者可以轻松地从权重中计算出来。应将其报告为代表群体的大小,而不是样本的加权大小。换句话说,我们没有以任何方式增加样本量。
当群体的关注变量彼此不同时,通常会使用分层,例如我们前面的示例中的FIM。在这种情况下,我们通常对每个层次(例如,每个层次中的平均FIM)的推断(例如,均值,比例,总数,比率)和整体推断(例如总体均值FIM)感兴趣。将来自各层的推论组合成关于整个总体的推论时,权重就起作用了。在前面的示例中,我们考虑了在总体总体均值的估计中包括权重。平均值的标准误(SEM)的估算还必须包括权重;否则,SEM可能会被高估或低估,具体取决于被过度采样的地层的变异性。如果我们用
,其对SEM的估算为

)是第h层中估计均值的样本方差。这些公式可从教科书7, 8和用于从加权的采样数据(详情后)的分析编写的软件已被引入。
就数据分析而言,更复杂的采样设计(例如多阶段方案)可以看作是分层的扩展。例如,可以将一个州划分为邮政编码,并且在每个邮政编码内将人口划分为年龄组。可以通过首先随机选择一些邮政编码,然后在这些邮政编码区域内的每个年龄层中选择主题来获取最终样本。因此,可以根据邮政编码所属的人口规模和该人所属的年龄组为每个人计算权重。每当研究人员有兴趣对涉及一个以上年龄段或邮政编码区域的整个人口或其中一部分进行推断时,都必须使用权重以最大程度地减少估计误差。在下一节中
使用MCBS的示例
MCBS是一项对医疗保险受益人的调查,该调查对每个样本对象进行长达4年的跟踪。该调查收集了有关受益人健康状况和医疗保健利用许多方面的数据。我们将使用2001年的数据来显示使用权重进行统计分析的示例。有关MCBS的更详细说明,可以在Adler 10的研究报告中以及在MCBS网站上找到。1个
对于MCBS,美国被划分为地理主要抽样单位(PSU),每个抽样单位由一组县组成。在抽样方案的第一阶段,选择了107个PSU代表该国。在PSU中,样本仅限于与邮政编码相对应的某些地理子区域中的地址。在这些地区中,系统地使用了随机抽样的年龄分层,其中有因残疾(不论年龄大小)而有资格获得医疗保险的受益人人数过多,以及受益人的年龄在85岁及以上。抽样方案旨在为每个阶层以及整个人口提供良好的估计,同时确保及时进行调查。样本中包含的可能性由受益人的住址,年龄和残疾状况决定。抽样权重旨在解决概率差异。Medicare在某个时间点列出了人口中所有人员的列表,从中可以计算出一个人将出现在样本中的概率。在MCBS数据文件中,可用变量之一是“年度横截面权重”,该加权数将在指定的1年期限内用于加权分析。
使用权重估算总体价值
2001年MCBS样本中有12769名年龄在65岁以上的受试者,代表该年登记的大约3086万人的Medicare受益人。参与者报告了他们是否有6种日常生活活动(ADL)困难,包括洗澡或淋浴,进食,穿衣,出入椅子,上厕所和散步。根据每个人遇到困难的ADL数量(0-6个ADL)对每个人进行分类。通过使用简单(未加权)和加权方法(表3),估算了每个类别中受试者在人口中的比例。
| 困难的ADL数量 | 样本中的主题数 | 估计比例 | 估计的总人口 | ||
|---|---|---|---|---|---|
| 未加权法 | 加权法 | 未加权法 | 加权法 | ||
| 0 | 9,020 | .706398 | .728486 | 21,796,982 | 22,478,530 |
| 1个 | 1,668 | .130629 | .123932 | 4,030,750 | 3,824,108 |
| 2 | 816 | .063905 | .059393 | 1,971,878 | 1,832,660 |
| 3 | 439 | .034380 | .031562 | 1,060,851 | 973,893 |
| 4 | 359 | .028115 | .024875 | 867,530 | 767,556 |
| 5 | 287 | .022476 | .019694 | 693,540 | 607,688 |
| 6 | 180 | .014097 | .012058 | 434,973 | 372,068 |
| 总 | 12,769 | 1.0 | 1.0 | 30,856,503 | 30,856,503 |
在这两种方法中,比例非常相似,尤其是前2个十进制数字。但是,由于这些比例将应用于非常大的人群(> 3000万),因此需要更高的精度。表3的最后2列显示了将未加权和加权估计应用于数据的效果。与加权方法相比,非加权方法估计的人群中ADL困难人数更多。发生这种情况的原因是,MCBS抽样设计要求对年龄较大的人群进行过多的代表,我们预计这会带来更多的ADL困难。(此处未考虑对65岁以下的残疾人进行过度采样,因为他们未包括在示例中。)基于示例中显示的原理表1,表2的加权分析应提供更准确的总体值估计。例如,如果将结果用于制定卫生保健政策,则忽略复杂的抽样设计及其相关的权重可能会导致高估或低估了实施政策所需的必要资源。在我们的示例中,如果要为没有ADL困难的人群制定政策,那么忽略权重将导致全国大约681,000受益人的人数被低估(第5栏和第5栏的估计数之间存在差异)对于表3中的 ADL = 0,如图6 所示。
在线性和逻辑回归分析中使用权重
在研究变量之间的关系时,根据结果变量的类型,适当的分析方法可以是线性回归或逻辑回归。在多阶段抽样设计中,当总体的某些子组被过度抽样时,估计的关联可能会偏向一个方向或另一个方向。通过使用加权线性或逻辑回归可以缓解此问题。
例如,请考虑2001年的MCBS调查。我们将使用本质上是二进制的结果,因此将使用逻辑回归。线性回归的方法与此类似。假设将结果定义为在一种或多种工具性ADL中存在困难,包括进餐,理财,购物,杂货店购物,轻度或繁重的家务劳动以及电话使用,并且我们想研究困难之间的关联工具性ADL和各种解释性变量(年龄,性别,种族,社会经济地位,合并症数,过去一年的健康状况)中的数据。表4显示了加权和非加权线性回归的结果。这两种方法之间的主要区别在于种族效果。尽管在非加权方法中种族具有统计学意义(显着性水平为.05),但在加权方法中却没有。造成这种差异的主要原因是,MCBS对85岁以上的人群进行了超采样,而这些受试者中有很大一部分是白人。该分析表明结果和解释可能取决于使用加权分析还是未加权分析。
| 解释变量 | 未加权回归 | 加权回归 | ||
|---|---|---|---|---|
| 系数 | P | 系数 | P | |
| 年龄(y) | 0.076 | <.001 | 0.072 | <.001 |
| 性别(男人;参考:女人) | −0.764 | <.001 | −0.802 | <.001 |
| 种族(非白人;参考:白人) | 0.152 | .016 | 0.091 | .219 |
| SES(收入≥$ 25,000;参考:<$ 25,000) | 0.382 | <.001 | 0.356 | <.001 |
| 合并症数 | 0.319 | <.001 | 0.323 | <.001 |
| 健康状况(良好;参考:不好) | 1.556 | <.001 | 1.577 | <.001 |
| 不变 | −7.523 | <.001 | −7.230 | <.001 |
缩写:参考,参考;SES,社会经济地位。
在纵向数据分析中使用权重:可能吗?
在医学文献中,术语“ 纵向”已用于各种场合。在统计文献中,纵向研究被定义为一项研究,其中“对对象的测量是随时间重复进行的。” 11在纵向数据分析中权重的使用取决于总体的定义方式,样本的选择方式,重复测量的频率,以及是否可以计算适当的权重。
当选择一个样本并在稳定的人群中在相同的时间段内观察到所有受试者时,加权分析是可行的。例如,您可以根据某种样本设计(可能是复杂的和多阶段的)来选择样本,并遵循5年。如果人口数量不会随时间变化,则可以通过应用常规的加权分析方法使用样本来推断人口价值,因为多年来,每个人仍然代表人口中相同的人数。
医疗保险人口是不断变化的人口的一个例子,受试者不断地进入和离开人口。MCBS旨在替换大约三分之一的样本,从而错开了受试者进入和退出年度样本的时间。因此,样本中的人参加调查的每一年所代表的人口数量并不相同。MCBS数据文件的权重跨度为2或3年12例如,允许研究人员在一定时期内进行观点推断,例如在固定的2年期间内行动不便的受试者的患病率。但是,如果我们想使用MCBS样本研究所有从1995年至2000年开始样本的受试者,并追踪他们4年以建立一些残疾的途径(通过反复测量其残疾状况),每个人都不容易计算。一种解决方案是在不使用权重的情况下分析数据,并确认总体中某些子组的过度代表。这种分析的结果需要谨慎解释。研究统计学家可能要做出判断,判断是否违反统计模型的任何假设是否会对结果产生影响,并且,因此,在结论中。同样危险的是在纵向分析中随意使用权重,例如使用为横截面分析而开发的权重,好像它们在纵向设置中有效一样。充分了解生成数据的样本方案有助于避免此类陷阱。
其他与加权分析有关的问题
适当的统计分析取决于研究目标和设计以及结果的类型。因此,如果调查使用加权抽样,那么关于人口价值的推论(例如均值,比例,总数和比率)必须使用加权分析。对于涉及1个或多个层次分层的推理也是如此。
可能会问,当目标人群的实际规模未知或无法对所有受试者进行枚举时,加权是一个问题。在残疾研究中,当我们不得不依靠来自某个诊所的受试者样本时,就会发生这种情况。这些类型的研究的主要假设之一是,观察到的样本等于人群的SRS。这是一个很强的假设,出于谨慎考虑,研究人员将他/她的结论限制为可用的样本人群,而不是目标人群。此处无法使用权重,因为无法计算权重。因此,除非假定采用SRS,否则无法估计依赖于权重的值(例如人口中具有一定条件的人数)。
可用软件
市面上有专门为调查中的加权样本专门开发的各种软件。在我们的示例中,我们使用了SAS 13和Stata,14,但也可以使用其他统计软件,例如WesVar 15和SUDAAN。16可以在我们的网站上找到表4所示的SAS Proc SurveyLogistic和Stata 的逻辑回归中使用的一组基本命令。17
结论
涉及分层或多阶段抽样的复杂调查是通常用于估计值和人群中结果与变量之间的关联的设计。通常,抽样程序会根据对象所属人群中的群体或阶层,提供不同的选择概率,因人而异。使用权重的统计方法的主要目的是最大程度地减少抽样误差,并使整个总体的估算过程更加准确。应在可能且适当的地方使用它们。
原文出处:
https://www.archives-pmr.org/article/S0003-9993(05)01284-0/fulltext#section.0025


浙公网安备 33010602011771号