深入解析:SLR(系统性文献综述)——如何发表你的第一篇论文?
一、什么是系统性文献综述?
系统性文献综述是一种高标准、结构严谨的文献综述方式。它旨在全面、客观、可重复地收集、评估和综合所有与一个明确界定的研究问题相关的高质量文献。
它的核心特征在于“系统性”,即整个过程像一项科学研究一样,有预先设定的、透明的计划和方法,以最大限度地减少偏差。
SLR的标准步骤通常包括:
提出明确的研究问题:通常使用PICO/PICOS/PCC/SPICE/EPICOT/SPIDER等框架来精确定义困难
制定详细的检索策略:明确说明在哪些数据库(如PubMed, Web of Science, Scopus等)中进行了检索,使用哪些关键词及其组合,并附上完整的检索式。
设定严格的文献纳入与排除标准:预先规定要纳入的研究类型(如随机对照试验RCT)、研究对象、发表语言、发表时间、文献类型(Article/Conference/Book/Gray literature)等。
系统性地筛选文献:通常由两位或以上的评审员独立根据标准进行筛选(标题/摘要筛选、全文筛选),并对分歧进行讨论消除,以保证客观性。
严格的质量评价:使用标准化的质量评价程序(如 Cochrane Risk of Bias Tool)对纳入研究的偏倚风险和方法学质量进行评估。
数据提取与综合:启用预先设计好的表格提取数据,然后对数据进行定性(描述性)综合,倘若研究足够同质,还会进行定量综合,即Meta分析。
结果报告与解释:清晰、透明地报告整个流程和发现,包括检索到的文献量、纳入的研究、质量评价结果、综合结果等。
二、SLR与其他常见综述类型的区别
传统(叙述性)文献综述
特点:这是最常见但也最宽泛的综述类型。作者通常不遵循严格的系统性方法,而是基于自己的知识和兴趣,选择性地回顾和讨论某一领域的文献。
目的:献出对一个领域的广泛概述,介绍历史发展、理论框架、当前现状和未来方向。常用于学位论文的第二章或教科书中的章节。
缺点:容易受作者个人观点和选择偏倚的影响,缺乏透明度和可重复性。
范围综述
特点:它的方法与SLR极其相似,也遵循系统性的流程,但其核心目的不是回答一个具体的、需要证据质量评估的问题,而是“描绘”一个领域的研究范围和规模。
目的:探讨一个领域已经做了哪些研究,识别关键概念、证据类型和研究空白。常用于为后续的SLR确定研究困难,或者在概念尚不明确、研究设计多样的新兴领域进行探索。
与SLR的区别:通常不含有对纳入研究的严格质量评价步骤。
Meta分析
需要强调的是:Meta分析不是一种独立的综述类型,而是一种统计技术。它通常是SLR的一个组成部分。
特点:运用统计学方法对多个独立但主题相似的研究结果进行定量合并,从而得出一个更具普适性的综合结论(如合并后的效应量)。
目的:增加统计功效,处理单个研究间的争议,提供更精确的效应估计。
Umbrella Review
特点:又称为“综述的综述”。
目的:综合针对同一健康问题但不同干预措施或不同结局的多个SLR的结论,从更宏观的层面提供证据概览。
批判性综述
特点:侧重于对现有文献进行深入的、批判性的分析和评价,强调理论贡献、方法论优缺点,并指出矛盾和有争议的地方。
目的:推动理论发展,挑战现有范式,通常出现在社会科学和人文领域。
* SLR与其他综述类型的核心区别 (如下表)

三、SLR的Research Question构建框架
①PICO / PICOS (及其变体)医学和健康科学领域最经典、最常用的框架,尤其适用于干预性/疗效研究。
P (Population/Patient): 感兴趣的患者或人群。定义其关键特征(如疾病、年龄、性别、病情严重程度)。
I (Intervention/Exposure): 要评估的治疗、干预措施或暴露因素。
C (Comparison/Control): 用于比较的干预措施(如另一种治疗、安慰剂、空白对照)。
O (Outcome): 希望测量的结果(如死亡率、症状改善、生活质量、副作用)。
S (Study design): (可选但推荐)优先考虑的研究设计类型(如随机对照试验RCT)。
②PCC - 适用于范围综述(Scoping Review)和方法学综述,范围综述旨在厘清关键概念和证据范围,而非直接回答疗效问题。
P (Population): 目标人群。
C (Concept): 需要厘清的核心概念、定义或领域。
C (Context): 研究所处的环境、背景或设置(如国家、文化、医疗系统)
③SPICE - 适用于服务评估、社会科学和政策研究,强调在特定背景下评估某项行动或服务。
S (Setting): 环境或背景。
P (Perspective): 相关用户、患者或利益相关者的观点。
I (Intervention/Exposure): 被评估的行动、项目或服务。
C (Comparison): 与什么进行比较(可选)。
E (Evaluation): 评估的指标或结果。
④EPICOT - 适用于识别未来研究方向的综述,常用于综述的讨论部分,提出研究建议。
E (Evidence): 当前已有的证据。
P (Population): 目标人群。
I (Intervention): 干预措施。
C (Comparison): 对照。
O (Outcome): 结果指标。
T (Time stamp): 建议的时间框架和研究设计。
⑤SPIDER - 适用于定性研究或混合方式综述,当综述包含定性证据时,PICO不够灵活,SPIDER更适用。
S (Sample): 研究的参与者。
PI (Phenomenon of Interest): 感兴趣的现象、行为或经验。
D (Design): 研究设计(通常更宽泛,如定性研究、现象学研究)。
E (Evaluation): 测量的结果(通常是主题、观点、体验,而非量化指标)。
R (Research type): 研究类型(定性、定量或混合方法)
四、SLR必须有的“一表一图”——文献筛选流程
① 文献筛选条件


② 文献筛选流程与数目统计


*上述图表来自已发表文献,非作者原创
*文献筛选标准参考PRISMA 2020 statement — PRISMA statement
五、SLR数据处理与分析
整个流程可以分为三个核心阶段:1. 信息提取 -> 2. 数据分析与综合 -> 3. 结果呈现与解释
第一阶段:数据提取——构建分析的基础——系统性地从纳入的文献中捕获信息
1. 设计并填写标准化的数据提取表:
目的:确保从每篇文献中收集的信息是一致的、可比较的。
内容(需根据您的研究问题定制):
文献主要信息:作者、年份、标题、期刊、研究类型(RCT, 案例研究等)。
以PICOS框架为例收集要素:
P:研究对象
I:干预措施或核心现象
C:对照措施或比较对象
O:结果指标
S:研究背景/环境
研究方法学特征:样本量、随访时间、测量工具、数据分析办法。
关键发现/结果:包括主要的定量结果(如效应值、均值)和定性主题。
*注意记录key findings中的conflicting, inconsistency, doubts和potential gaps
2. 进行预提取:
由2-3名评审员独立对少量(如5-10篇)文献进行数据提取,然后比较结果,解决分歧,完善提取表的设计和定义,确保一致性。
第二阶段:数据分析与综合——您的挑战核心
层次一:描述性分析——描绘“地图”
目的:整体把握所纳入研究的特征。
内容:
研究分布:发表年份趋势、国家/地区分布、学科分布。这直接对应了您提到的“emerging trends”。
研究方法谱系:各种研究设计(如实验、调查、质性研究)的比例。这揭示了领域的成熟度和主流范式。
研究对象与情境:研究主要集中在哪些人群、哪些环境中?这行帮忙识别“potential gaps”(例如,某个特定人群被忽略了)。
层次二:主题综合与内容分析——挖掘“模式与关系”
目的:识别、分析和整合研究的具体内容。
内容:
定性研究:常用主题综合。借助反复阅读、编码,将多个研究的发现归纳为一系列连贯的、有层次的主题。这些主题及其之间的关系即“patterns and relationships between various elements”。
定量/混合研究:可以进行内容分析通过,对研究结果进行分类和计数。例如,能够统计“影响用户采纳的因素”被多少篇文献提及,并排序。
跨案例比较:将每项研究视为一个“案例”,系统比较不同案例间的异同,从而解释为什么在某些情况下会出现特定结果。
层次三:批判性评估——评估“证据强度”
这是您提到且至关重要的部分,需要系统化执行。
方法:
采用标准化工具:根据研究类型选择相应的评估工具。
RCT:Cochrane偏倚风险评估设备。
观察性研究:NOS量表。
质性研究:CASP清单。
评估维度:包括选择偏倚、实施偏倚、测量偏倚、损耗偏倚等。
结果运用:
敏感性分析:在元分析中,排除低质量研究,看结果是否稳健。
为发现献出背景:在综合结果时,明确指出某个强有力的结论主要来自高质量研究,而某个不确定的结论可能源于方法学有缺陷的研究。这也有助于回应的“key findings (conflicting, inconsistency, doubts)”——不一致的结果有时正是由于研究质量的巨大差异造成的。
层次四:解释性综合——回答“So What?”
目的:超越简单的总结,构建一个更高级别的解释框架。
内容:
构建概念模型:基于前面的分析,提出一个能解释各要素之间关系的模型。例如,“A通过B的中介作用影响C,而这个过程受到D的调节”。
解释矛盾对就是:主动探讨为什么研究会得出相互矛盾的结论?是人群差异、干预剂量不同、还是测量工具不一?这“key findings (conflicting)”的深度挖掘。
证据分级与结论强度:使用如GRADE等技巧,对每个主要发现的证据强度进行评级(高、中、低、极低)。这让读者一目了然地知道该对哪个结论抱有更多信心。
层次五:研究进展的综合评述——综合之综合+提防灯下黑
理论/概念框架的演变:领域内使用的核心理论是否发生了变化?是否有新的理论被提出?
方法学的演进与反思:研究方式的严谨性是否在提高?是否存在普遍的方法论缺陷?
剂量-反应关系:在干预研究中,不同“剂量”的干预是否导致不同的结果?
未报告的结果:注意“发表偏倚”,那些不显著或负面的结果可能没有被发表,但这本身就是一个重要的发现。

浙公网安备 33010602011771号