潜在类别分析代码备忘
TITLE: LPA; DATA: FILE IS C:\xxxx\xxxxx\xxxxx\xxxx.dat; ! 数据文件名为xxxxx.dat,可先将Excel/csv文件转存为SPSS的sav文件,再使用N2Plus工具转为dat文件,可直接将变量命名为w1,w2... VARIABLE: NAME ARE w1 w2 w3 w4 w5 w6; ! 数据文件中包含的变量 USEVARIABLES ARE w2 w3 w4 w5 w6; ! 本次分析中使用的变量 MISSING ARE ALL (99); ! 定义缺失值为99 CLASSES = C(1); ! 设置类别个数,从1个类别开始,依次增加,根据各类别数模型的AIC,BIC,Entropy,最小组比例,LMRp-value,BLRTp-value综合考虑 ANALYSIS: TYPE = MIXTURE; ! 使用MIXTURE算法 STARTS = 200 50; ! 避免局部最大化解,增加随机起始值数 PROCESSOR = 4; ! 调用的处理器 OUTPUT: TECH11 TECH14; ! TECH11输出LMRT的结果,TECH14输出BLRT的结果 SAVEDATA: FILE = xxx.TXT; ! 保存个体分类结果到xxx.txt中 SAVE = CPROB; !保存后验分类概率
潜在类别分析(Latent Class Analysis, LCA)是一种统计方法,主要用于识别观测数据中的潜在类别或子群体。其最重要的步骤是选择最佳的类别数量,可通过以下的指标进行选择:
-
AIC (Akaike Information Criterion):考虑模型拟合优度和复杂度,AIC越小越好。
-
BIC (Bayesian Information Criterion):BIC越小越好。
-
Lo-Mendell-Rubin检验 (LMR):比较k类和k-1类模型的拟合差异,p值显著支持k组数模型,即k组数优于k-1组数,不显著则表明k-1组数优于k组数。
- Bootstrap似然比检验 (BLRT):p值显著支持该组别数的模型,即k组数优于k-1组数,不显著则表明k-1组数优于k组数。
- 熵值(Entropy):衡量分类准确性,范围0-1,越接近1表示分类越清晰,通常高于0.8认为分类良好。
- 类别比例:每个类别应有合理比例,避免过小类别(如小于5%)。
- 需要注意,当以上指标相近时(例如熵值、比例、AIC、BIC类似,LMR和BLRT结果未能全部表明k组数模型优于k-1组数模型时),选择更简单的模型,即k-1组数模型。
当TECH11和TECH14出现“USING MORE RANDOM STARTS MAY RESOLVE THE PROBLEM.”或“INCREASE THE NUMBER OF RANDOM STARTS USING THE LRTSTARTS OPTION”问题时,可考虑将STARTS和LRTSTARTS增加至多达5000 100次